赞
踩
体验Claude3,官网地址:claude.ai
2024/3/4 日,Anthropic公司发布了新一代的Claude 3模型家族,这些模型在多种认知任务上设定了新的行业标准。以下是Claude 3模型家族的主要特点和亮点:
这些新模型的发布标志着AI技术在智能、速度和成本效益方面的进步,同时也强调了在发展过程中对安全性和负责任设计的承诺。
我们的最智能模型Opus在大多数常见的AI系统评估基准上都超过同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上展现出接近人类的理解和流畅度,引领着通用智能的前沿。
所有Claude 3模型在分析和预测、细致入微的内容创建、代码生成以及使用西班牙语、日语和法语等非英语语言进行交谈方面都显示出增强的能力。
以下是Claude 3模型与我们同行在多个性能基准上的比较:
Claude 3模型可以实现实时客户聊天、自动完成和数据提取任务,这些任务的响应必须是即时和实时的。
Haiku是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内阅读arXiv上的信息和数据密集型研究论文,其中包括图表和图形。发布后,我们希望进一步提高性能。
对于绝大多数工作负载,Sonnet的速度是Claude 2和Claude 2.1的2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平要高得多。
Claude 3模型具有与其他领先模型相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达50%的知识库以各种格式编码,例如PDF、流程图或演示幻灯片。
以前的Claude模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答系统护栏提示的可能性要小得多。如下图所示,Claude 3模型对请求表现出更细致的理解,识别真正的伤害,并且拒绝回答无害提示的频率要低得多。
各种规模的企业都依赖我们的模型来为他们的客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题的准确性(或正确答案)上提高了两倍,同时也减少了错误答案的水平。
除了产生更可信的回答外,我们还将很快在我们的Claude 3模型中启用引用,以便他们可以指向参考资料中的精确句子来验证他们的答案。
Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,所有三种模型都能够接受超过1百万个代币的输入,我们可能会将其提供给需要增强处理能力的特定客户。
为了有效地处理长上下文提示,模型需要强大的召回功能。“大海捞针”(NIAH)评估衡量模型从大量数据语料库中准确调用信息的能力。我们通过对每个提示使用30个随机针/问题对之一,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句似乎是人类人为地插入原始文本来识别评估本身的局限性。
我们开发了Claude 3系列型号,使其既值得信赖又强大。我们有几个专门的团队来跟踪和缓解广泛的风险,从错误信息和CSAM到生物滥用、选举干扰和自主复制技能。我们继续开发诸如宪法人工智能之类的方法,以提高我们模型的安全性和透明度,并调整了我们的模型,以减轻新模式可能引发的隐私问题。
处理越来越复杂的模型中的偏见是一项持续的工作,我们在这次新版本中取得了进步。如模型卡片所示,根据问答偏见基准(BBQ),Claude 3的偏见比我们以前的模型少。我们始终致力于推进减少偏见和提高模型中性的技术,确保它们不会偏向任何特定的党派立场。
尽管Claude 3模型系列在生物学知识、与网络相关的知识和自主性等关键度量上比以前的模型有所进步,但根据我们的负责任扩展政策,它仍然处于AI安全级别2(ASL-2)。我们的红队评估(按照我们对白宫的承诺和2023年美国行政命令进行)已经得出结论,目前这些模型对灾难性风险的潜在可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估它们距离ASL-3阈值的接近程度。更多安全细节可在Claude 3模型卡片中查看。
Claude 3模型更擅长遵循复杂的多步指示。它们特别擅长坚持品牌语音和回应指南,并开发我们的用户可以信赖的面向客户的体验。此外,Claude 3模型更擅长以像JSON这样的流行结构化输出格式产生输出,使得指导Claude用于自然语言分类和情感分析等用例更简单。
Claude 3 Opus是我们最智能的模型,具有最高的市场表现在高度复杂的任务上。它可以在开放式提示和未见过的场景中以惊人的流畅度和类人的理解导航。Opus向我们展示了生成型人工智能的可能性的外限。
Cost 成本* [输入$/百万代币 |输出 $/million 代币]* | $15 | $75 |
---|---|
上下文窗口 | 200K |
潜在用途 | 任务自动化:跨 API 和数据库规划和执行复杂操作,交互式编码研发:研究回顾、头脑风暴和假设生成、药物发现策略:对图表和图形、财务和市场趋势的高级分析、预测 |
介绍 | 比任何其他可用型号都具有更高的智能性。 |
*1M tokens available for specific use cases, please inquire.
Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其适用于企业工作负载。与同行相比,它以更低的成本提供了强大的性能,并专为大规模AI部署的高耐力而设计。
Cost 成本* [输入$/百万代币 |输出 $/million 代币]* | $3 | $15 |
---|---|
上下文窗口 | 200K |
潜在用途 | 数据处理:RAG或搜索和检索大量知识销售:产品推荐、预测、有针对性的营销节省时间的任务:代码生成、质量控制、从图像中解析文本 |
介绍 | 比其他具有类似智能的型号更实惠;更适合规模。 |
Claude 3 Haiku是我们最快、最紧凑的模型,可提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的AI体验,模仿人类的互动。
*Cost 成本 *** [输入$/百万代币 |输出 $/million 代币] | $0.25 | $1.25 |
---|---|
Context window 上下文窗口 | 200K |
潜在用途 | 客户互动:在现场互动、翻译方面提供快速准确的支持内容审核:捕获有风险的行为或客户请求节省成本的任务:优化物流、库存管理、从非结构化数据中提取知识 |
介绍 | 比其智能类别中的其他型号更智能、更快、更实惠。 |
Opus和Sonnet现在可以在我们的API中使用,现已普遍可用,使开发者可以立即注册并开始使用这些模型。Haiku即将推出。Sonnet正在为claude.ai的免费体验提供支持,Opus可供Claude Pro订阅者使用。
Sonnet也可以通过Amazon Bedrock今天就使用,并在Google Cloud的Vertex AI Model Garden中进行私人预览,Opus和Haiku将很快在两者中推出。
我们不认为模型智能已经接近极限,我们计划在接下来的几个月里频繁更新Claude 3模型系列。我们也很高兴推出一系列功能,以增强我们模型的能力,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)以及更高级的代理能力。
在推动AI能力的边界的同时,我们同样致力于确保我们的安全护栏能够跟上这些性能的飞跃。我们的假设是,处于AI开发前沿是将其轨迹引向积极社会结果的最有效方式。要开始使用Claude,请访问anthropic.com/claude。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。