可信知识实证在UGC时代情报应用中的思考与探索

作者：小小林熬夜学编程 | 2024-03-01 09:28:07

踩

在当前互联网高度发达、可发布信息源和信息渠道猛增且多元化的大背景下，信息形态变得广泛且多模。从传统的纸质文档，到中期的电子结构化文档、电子非结构化文本，再到如今的语音信息、图片信息、视频流信息鼎立的局面，信息市场变得复杂而多变。

在UGC（用户生产内容）以及数据众包生产的大环境下，存在广泛的信息过载和信息混乱的问题。但情报的挖掘、信息的二次加工显得尴尬且必须，这对数据生产中的数据获取端、知识抽取环节以及业务端三个方向提出了更高的要求。

事实上，支撑起目前自然语言处理相关落地产品的数据来源大多来自开源信息情报，门户网站、各大垂直网站、论坛社区、“两微一条”、政府报告、研究报告、政策公告、百科问答等公共数据。这为舆情监控、事件热点挖掘、智能问答、文本生成、知识图谱可视化、风险推理等多个落地应用带来了诸多挑战。

数据地平线充分认识到“可信知识实证”的重要性，并在底层知识库构建、自然语言处理组件开发、产品应用上引入了可信知识溯源的思想，探索形成了多个可信语言资源库、知识抽取平台、大规模事理学习系统以及投研逻辑管理平台。本期围绕“可信知识实证在UGC时代情报落地中的思考与探索”这一主题进行分享。

一、UGC时代下的信息乱象

搜索引擎和UGC（用户创作内容）无疑是当代生活中重要的科技力量，但它们产生的副作用也是客观存在的，这直接带来了两个突出的问题，即信息过载以及信息模糊化。信息过载带给用户一种视觉上的压迫感，而模糊化使得信息流中混杂着可信度参差不齐的元素，极大地扰乱了信息市场的正常运转和人为决策。

在这里插入图片描述

图1-谣言不断的信息乱象图

例如，新冠肺炎疫情防控过程中，关于防护措施以及感染情况的造谣传播行为直接干扰疫情决策；杭州女子莫名失踪案中，网红蹲守事发现场直播并对案情涉及主人公进行身份、行为猜测，并发布不实信息的行为，直接妨碍公安事务管理；搜索引擎中返回用户问题不实答案造成伤害；用户对常用成语、对联、古诗词的篡改所引起的学生误导等，明显揭露出了当前社会对信息可靠性的迫切需求。

谣言与辟谣两者之间的斗争在信息市场上频频上演，信息的准确性、可靠性、实时性与全面性成为了目前信息处理领域对信息本身提出的四个要求，这一点，在严重依赖该信息而作出某种决策的行为或工作中表现得更为强烈。然而，就谣言和不实信息的斗争而言，其需要花费大量的人力、物力，并对现行技术提出了极高的要求，无论在内容生产、内容加工还是在内容消费上，“知识可靠性验证”的需求呼之欲出。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/172705