赞
踩
编者按: 如今,大模型及相关的生成式人工智能技术已经成为科技产业变革的新焦点,但大模型存在一些风险(容易产生偏见内容、虚假信息),其行为难以预测和控制。因此,如何持续监控和评估大模型行为以降低这些风险成为当下产学研各界的研究难点。
本文作者通过分析 ChatGPT 在 35 天内对一组固定 prompt 的回答,探索了 7 组指标来评估 LLM 的行为变化。
具体的指标及其意义如下:
- ROUGE:评估大模型的回答与参考回答的相似度。
- 性别偏见:计算性别词汇使用比例评估性别偏见。
- 文本质量:借助 textstat 库计算文本质量指标。
- 语义相似度:计算 prompt 和回答的语义相似度评估回答的相关性。
- 正则表达式:使用正则表达式检测敏感信息。
- 拒绝回答:跟踪模型面对禁止的或有争议的话题时的谨慎程度。
- 毒性和情感:监控其变化,确保模型符合预期,没有不利信息。
本文通过持续跟踪和监控多组指标,较全面地检测和理解了 ChatGPT 模型行为的变化趋势。我们期待后续研究能在本文工作的基础上,建立更系统、智能的 LLM 行为监测与控制框架,以降低模型操作风险,提高输出结果的可解释性与可靠性。
作者 | Felipe de Pontes Adachi
编译 | 岳扬
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。