推动内容安全生态与通用大模型良性融合_大模型用户输入内容安全拒答

作者：酷酷是懒虫 | 2024-08-08 01:04:51

踩

大模型用户输入内容安全拒答

国产语言大模型的发展势头迅猛，引人瞩目。随着技术的创新和进步，国产语言大模型在自然语言处理、语义理解等方面展现了卓越的能力。无论是在机器翻译、语音识别还是智能对话的领域，这些大模型展现出高水平的精度和广度覆盖，以高度还原的语言特征，真实再现了语言背后的专业内涵和情感表达，并将进一步推动人工智能技术的发展和应用，在教育、医疗、金融等领域发挥积极的作用。

值得注意的是，虽然内容生成技术带来了许多令人惊叹的创新和便利，但也增加了内容风险的发生频率。因此，如何加强对AIGC内容生成的管控和约束，确保其在交互过程中始终秉持正确的价值观，以及最大程度地规避可能引发负面影响的内容风险，已逐渐成为亟待解决的重要问题。

1. AIGC内容可能引发不实和虚假信息泛滥的问题

AI短时间内能够创造出各种类型的虚假文本，包括新闻文章、评论、小说等。传播后大面积误导和混淆人们的判断力，对个人、组织和社会造成严重的影响。

2. AIGC内容可能导致个人和隐私权利的侵害

通过分析和利用海量的数据，AI捏造真人相貌、语气和观点，从而产生欺骗和滥用个人信息的风险，可能被用于进行网络诈骗、身份信息窃取等恶意活动。

3. AIGC内容可能带来伦理和道德层面的考验

AI根据训练数据生成内容，缺乏人类的主观判断和道德标准，使得生成的内容出现种族歧视、性别偏见、仇恨言论等问题，对社会和文化价值观产生负面影响。

在国际范围内，AIGC内容风险问题引起广泛关注，许多国家纷纷制定相关法律法规加强监管，以确保AIGC内容生成的合法性、道德性和公平性。在国内，AIGC技术的快速发展导致大量生成内容风险涌现，对于企业发展、社会稳定以及人民利益产生不同程度的负面影响，强监管模式同样势在必行。

内容合规在AI潮流的涌进下逐步成为重视焦点，互联网平台需要付诸更多的努力来确保用户在其平台上接触到的内容是安全、准确和正向的。

知道创宇ScanA内容安全云监测AIGC版，以内容安全为抓手，建立完整的、科学的、工程化的AIGC有害内容侦测手段、防御手段以及反制手段，为各大内容厂商提供内容风控体系四大解决方案，实现快速、精准的内容风险控制。

ScanA AIGC版训练标注服务

ScanA AIGC版能够为多个内容厂商提供数据标注服务，能够在各类场景进行精准细化的任务标注，标注主要涉及数据采集、文本类、图片类、视频类以及音频类。

标注过程中，ScanA充分发挥自身优势采用人机协作，人工标注员实时参与模型训练调优过程，其标注结果能实时回流模型训练，使其进行自动标注。同时还能对接高要求时效性任务，从而满足实时标注。最终平台能根据历史任务结果自动质检全量数据。

AIGC模型安全评估两大类：安全性和性能

1.ScanA AIGC版模型安全性评估

除了基本的道德和法律风险之外，ScanA还逐步完善和细化了对内容是否符合社会主义价值观以及是否存在偏见和歧视的评估。从评估内容和评估内容提供方的拒答能力两方面双管齐下，进一步剖析内容攻击的手段类型，例如反面诱导、危险指令、角色扮演等指令攻击手段，从而反哺深化评估模型的防御能力。

A 内容安全能力评估

针对包括政治敏感、违法犯罪、身体伤害、伦理道德、隐私财产、文明礼貌等六大方面进行安全评估。

B 偏见与歧视评估

针对模型的偏见、毒性、歧视情况进行专项评估。

C 内容安全拒答能力评估

针对模型的内容敏感话题的拒答能力进行专项评估。

D 指令式内容攻击防御能力评测

使用反面诱导、危险指令、角色扮演等指令攻击手段评估模型防御能力。

2.ScanA AIGC版模型性能评估

除了专注于安全性本身，内容风险控制的广度和精度更离不开模型自身性能。

首先是语言大模型的基础能力，其次是针对专业领域进行知识能力评估，以确保其具备正确理解和分析各领域的能力，提高结果准度。由于目前各领域与互联网大融合，催生出众多特色产业，因此对垂直领域的模型评估也变得尤为重要。除此以外，模型评估同时兼具汉文化特点，为模型注入本土特色。

A 语言大模型基础能力评估

针对常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力进行评估。

B 专业知识能力评估

针对各类专业、职业考试，涵盖从理数化计生，到法律、社会科学、哲学、心理学等40余种专业知识能力进行评估。

C 中文能力评估

针对有中文特点的任务，包含诗词、歌赋、文学、语文水平等20余种能力进行测试。

D 垂直领域大模型能力评估

针对医疗、法律、心理学和教育等多个行业垂直领域的定制化能力进行评估。

ScanA AIGC 内容风控体系解决方案应用多种场景

知道创宇ScanA AIGC内容风控体系包括机审和人审。客户可依业务场景所需灵活选择机审引擎或者机审引擎+人工复核，审核的内容包括图文音视文档等，覆盖AI对话、AI绘画、AI办公、AI搜索、AI视频、AI音频等AIGC应用场景。

不管是输入词还是内容生成，平台通过API调用引擎进行违规内容拦截。内容无异常，平台则正常对外展示；内容若违规，会打上相应标签返回给平台方。

ScanA AIGC版内容标注能力和内容审查能力相辅相成，提供全面的内容管理和安全机制。在内容审查方面，精准有效识别和过滤出不符合法律法规、道德规范或用户需求的内容，保证生成内容的合法性与可靠性。

ScanA AIGC内容风险拦截示例

知道创宇ScanA AIGC版走在AI时代的前沿，拥有丰富的AIGC风控经验，清晰理解监管机构的要求，为各大互联网内容平台提供高效的解决方案，以确保平台内容的合法性和合规性。

目前，ScanA AIGC版已和国内多家知名大模型厂商、AI机器人、AIGC平台达成内容合规方向的合作，并获得一致认可。只有在AI技术带来的优势和内容风险之间找到平衡，才能推动内容安全生态与通用大模型的良性融合，充分挖掘AI与人类交互的巨大潜力，为互联网AI时代创造更安全、更美好的未来。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/945329

推动内容安全生态与通用大模型良性融合_大模型 用户输入内容安全 拒答

推动内容安全生态与通用大模型良性融合_大模型用户输入内容安全拒答