欢迎申请“AI安全和对齐”学者计划｜智源社区&安远AI联合推出

作者：IT小白 | 2024-03-18 02:54:42

踩

agi safety fundamentals课程的中文版

导读

智源社区和安远AI联手启动“AI安全和对齐”（AI Safety and Alignment）学者计划, 现邀请杰出青年学者为人工智能的安全发展贡献力量！

项目介绍

随着人工智能模型的规模持续扩大，以GPT-4为代表的大模型已展现出令人印象深刻的能力。但与此同时，我们看到此类模型也展现出令人担忧的能力和行为。例如，在对GPT-4的早期测试中发现它能够通过欺骗人类来获取验证码；由微软研制发布的Bing对话机器人也在一些情境下对用户产生了具有攻击性的回复。

由此可见，进入大模型时代，如何确保越发强大和通用的人工智能系统安全可控，符合人类意图和价值观，是极为重要的一个问题。这一安全问题又被称为人机对齐(AI alignment)问题，它代表了本世纪人类社会面临的最紧迫和最有意义的科学挑战之一。

本次学者计划由智源社区和安远AI联合举办。我们将通过文献阅读、小组讨论以及与世界领先专家学者的交流，探讨AI 安全和对齐领域的最前沿工作，帮助顶尖人才确保AI技术造福人类。

申请条件

我们主要针对国内（含港澳台）大学在读硕博研究生，同时也欢迎优秀本科生和业内研究人员申请。

我们期待你：

时间和费用投入

时间：项目将于2023年7月下旬至10月中旬进行，包括为期6周的阅读和在线讨论、一次持续半天的线下活动、以及4周的实践项目。在线学习期间，每周需投入大约3.5小时，可兼顾其他实习或研究项目。实践项目预计需投入至少15个小时，学员可根据个人目标投入更多时间。

费用：全部免费！入选学员可免费参与所有讨论和交流活动，优秀学员更有机会获得额外奖励（见下面“你将获得”部分）。

项目安排

（注：项目具体时间将在学员名单产生后确认。我们会综合考虑所有入选成员的时间偏好并做出安排。）

7月下旬至9月上旬：线上学习讨论

课程内容：
- 以OpenAI研究科学家Richard Ngo设计的AGI Safety Fundamentals课程为基础，介绍AI风险分析、价值对齐、可解释性等研究问题。目前，全球已有1000余名学员完成了AGI Safety Fundamentals课程。课程大纲的中文版请见：https://x9p6qmwq0n.feishu.cn/docx/EgHwdZrq5on57YxNR2DcjxlDnqf。
- 课程内容分为6部分，学员每周学习一个部分，持续六周。
组织形式：
- 每个学习小组由5-7名学员及小组负责人构成。
- 学员需自行安排每周2小时的课程预习时间并记录疑问；针对课程重点和学员疑问，我们会组织每周1.5小时的在线小组讨论。
- 小组负责人是具备AI安全和对齐知识背景的硕博研究生，来自国内外顶尖学府。负责主持讨论和问答。
其他活动：
- 与前沿大模型实验室科学家和顶尖大学教授进行交流的线上研讨会，并为北京的学员安排线下社交活动，学员可选择性参与。

9月中旬：线下活动

9月中旬至10月中旬：实践研究项目

为了巩固线上课程的学习内容并提升研究能力，学员将完成一个研究/工程项目或撰写相关文献综述。可能的产出包括以下任一选项：
- AI安全和对齐论文的复现
- 测试大语言模型的危害行为，整理模型失败案例
- 完成大模型对齐练习，例如前OpenAI研究员Jacob Hilton提出的练习[2]
- 针对部分课程内容或相关研究领域撰写文献综述