赞
踩
LLMs之Claude3:Claude 3的简介、安装和使用方法、案例应用之详细攻略
导读:本文介绍了Anthropic于2024年3月4日推出的新一代更强大的AI助手Claude 3系列模型。
背景痛点:
>> 当前人工智能模型在复杂任务、响应速度、准确性、上下文记忆等方面存在不足;
>> 企业对于可靠性更高、更智能、更高性能的AI模型有迫切需求;
>> 早前版本Claude模型在某些任务上的智能能力和响应速度还有待提升。
解决方案:
>> Anthropic推出了Claude 3系列三个级别的模型:Haiku、Sonnet和Opus,从低到高依次提升智能能力。Claude 3 Opus顶级付费版,据称在逻辑推理能力上强于 GPT-4 和谷歌 Gemini Ultra。Claude 3 Sonnet 次级免费版,性能略低于 Opus 但仍优于 GPT-4。Claude 3 Haiku(未发布)专注于响应速度,旨在为企业提供近实时的 AI 客服等服务。
>> 每个模型都在智能水平、速度、成本等方面作出权衡,以满足不同场景需求
核心特点:
>> Opus在多项当代AI评测基准上表现出色,行业领先的智能能力,智能水平接近人类,完成复杂任务。
>> 全系列模型在分析预测、内容创作、代码生成、多语种交互等方面有极大提升,都提升了语言能力、分析预测能力以及非英语语言支持能力。
>> 卓越的响应速度,响应速度得到优化,Haiku可以在3秒内完成阅读一篇1万词的研究论文任务,适用于实时即时应用场景。Sonnet比之前版本快2倍,能高效完成知识检索、销售自动化等任务。
>> 强大的视觉能力,全系列模型拥有先进的视觉处理能力,可处理照片、图表、技术图等。有助于企业利用PDF、幻灯片等格式的知识库。
>> 更高的可信赖性,错误率和问答拒绝率得到下降,降低了不必要的拒绝回答率,在理解语境方面有显著改善。未来将支持引用来源,提高可信度。
>> 长期记忆和强大的上下文理解。支持超长上下文(最高100万个token)输入,并保持近乎完美的记忆。
>> 更加安全可靠,采用多种技术来提高安全性和透明度,如"宪政AI"。在减少偏见、保护隐私等方面也有改进。符合美国政府相关政策,经红队评估无重大风险。
>> 更擅长理解复杂的多步骤指令,更好地遵循品牌语音和响应指南。
>> 生成JSON等结构化输出格式能力提升。
优势总结:
>> 各模型在智能能力和价格配置上均取得平衡,Haiku模型更多面向实时响应需求scenarios。
>> 模型将持续升级提升,同时不断优化安全性,确保技术进步的同时也将风险控制在安全范围内。智能能力大幅提升,在多项评测中领先同行;响应速度显著加快,实时应用性能卓越;跨模态能力加强,视觉处理成绩斐然;答复更加可靠准确,引入引证机制提高透明度
>> 长时记忆能力出众,上下文理解深入;注重安全合规,风险评估谨慎;交互体验改善,指令理解和结构化输出更佳;通过智能、速度、成本的平衡,满足各类应用场景需求。
总体来说,Claude 3系列是Anthropic目前AI能力最强大的产品,在智能水平、速度响应、安全性等多方面都实现了突破,为用户提供了一系列优质的AI助手选择。Claude 3模型家族凭借突破性的智能能力、卓越的性能表现和良好的安全性,有望引领人工智能的发展,为企业和用户带来全新的AI体验。
目录
Claude 3 Opus远强于GPT-4:下面是Claude3模型与我们的同行在多个性能基准[1]上的比较:
3、强大的视觉能力,Claude 3 Opus略强于GPT-4V
地址 | |
时间 | 2024年3月4日 |
作者 | Anthropic |
今天,我们宣布了Claude3模型家族,它在广泛的认知任务中设定了新的行业基准。该家族包括三种最先进的模型按照能力逐渐增强的顺序排列:Claude 3 Haiku, Claude 3 Sonnet和Claude 3 Opus。每个后续模型提供越来越强大的性能,使用户能够为其特定应用选择最佳的智能、速度和成本平衡。
Opus和Sonnet现在可以在claude.ai和Claude API中使用,该API目前在159个国家普遍可用。Haiku将很快可用。
Opus是我们最智能的模型,在大多数人工智能系统的常见评估基准上都优于同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等等。它在复杂任务上表现出接近人类水平的理解和流畅性,引领着通用智能的前沿。
所有Claude 3模型在分析和预测、细致的内容创建、代码生成以及非英语语言(如西班牙语、日语和法语)会话方面都显示出增强的能力。
Claude 3模型可以支持实时客户聊天、自动完成和数据提取任务,这些任务的响应必须是即时和实时的。
Haiku是智能类别中市场上最快、最具成本效益的模式。它可以在不到三秒的时间内读取arXiv (约10k个标记)上的带有图表和图形的信息和数据密集的研究论文。在发布之后,我们期望进一步提高性能。
对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,具有更高的智能水平。它擅长于需要快速反应的任务,比如知识检索或销售自动化。Opus提供了与Claude 2和2.1相似的速度,但智能水平要高得多。
Claude3模型具有先进的视觉能力,与其他领先的模型相当。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别兴奋地为我们的企业客户提供这种新模式,其中一些客户有多达50%的知识库以各种格式编码,如PDF、流程图或演示幻灯片。
以前的Claude模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这个领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答系统护栏边界提示的可能性大大降低。如下图所示,Claude 3模型显示出对请求的更细致的理解,能识别真正的伤害,并且拒绝回答无害的提示的频率大大降低。
各种规模的企业都依赖我们的模型来服务他们的客户,这使得我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了大量复杂的事实性问题,这些问题针对当前模型中已知的弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,即模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)有了两倍的提高,同时也显示出错误答案的水平有所降低。
除了产生更值得信赖的回答,我们很快将在我们的Claude 3模型中启用引用,这样他们就可以指出参考材料中的精确句子来验证他们的答案。
Claude3系列模型最初将在发布时提供200K上下文窗口。但是,所有三种模型都能够接受超过100万个令牌的输入,我们可以将其提供给需要增强处理能力的特定客户。
为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量一个模型从大量数据中准确回忆信息的能力。我们通过对每个提示使用30个随机针/问题对中的一个,并在多样化的众包文档语料库上进行测试,增强了该基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的召回,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句子似乎是由人类人为插入原始文本来识别评估本身的局限性。
我们已经开发了Claude3系列的模型是值得信赖的,因为他们是有能力的。我们有几个专门的团队来跟踪和减轻广泛的风险,范围从误导信息和CSAM到生物滥用、选举干预和自主复制能力。我们继续开发宪法人工智能等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以减轻新模式可能带来的隐私问题。
在日益复杂的模型中解决偏差是一项持续的努力,我们在这个新版本中取得了长足的进步。如模型卡所示,根据问答偏见基准(BBQ), Claude 3比我们以前的模型显示出更少的偏差。我们仍然致力于推进技术,减少偏见,促进我们的模型更大的中立性,确保它们不偏向任何特定的党派立场。
虽然与以前的模型相比,Claude3模型家族在生物知识、网络相关知识和自主性的关键指标上取得了进步,但根据我们的负责任扩展政策,它仍然处于人工智能安全级别2 (ASL-2)。我们的红队评估(根据白宫的承诺和2023年美国行政命令执行)得出的结论是,目前这些模型的灾难性风险可以忽略不计。我们将继续谨慎监控未来的模型,以评估它们与ASL-3阈值的接近程度。有关Claude 3模型的更多安全详细信息,请参阅模型卡片。
Claude3模型更好地遵循复杂的,多步骤的说明。他们特别擅长坚持品牌声音和回应准则,并开发用户可以信任的面向客户的体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得指导Claude进行自然语言分类和情感分析等用例变得更简单。
Claude 3 Opus是我们最智能的模型,在高度复杂的任务上具有市场上最好的性能。它能以惊人的流畅度和人类般的理解力驾驭开放式提示和看不到的场景。Opus向我们展示了生成式AI的外部极限。
[输入 $/百万标记 | 输出 $/百万标记] $15 | $75
上下文窗口 200K*
潜在用途
任务自动化:跨 API 和数据库规划和执行复杂操作,交互式编码
研发:研究审查,头脑风暴和假设生成,药物发现
战略:图表和图形,财务和市场趋势的高级分析,预测
差异化 较任何其他可用模型都更智能。
*针对特定用例提供 100 万标记,请咨询。
Claude 3 Sonnet在智能和速度之间达到了理想的平衡——特别是对于企业工作负载。与同类产品相比,它以更低的成本提供了强大的性能,并且在大规模人工智能部署中具有高耐久性。
[输入 $/百万标记 | 输出 $/百万标记] $3 | $15
上下文窗口 200K
潜在用途
数据处理:在大量知识上进行 RAG 或搜索与检索
销售:产品推荐,预测,定向营销
节省时间的任务:代码生成,质量控制,从图像中解析文本
差异化 比其他类似智能模型更实惠;更适合规模化。
Claude 3 Haiku是我们最快,最紧凑的模型,几乎即时响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的人工智能体验,模仿人类互动。
[输入 $/百万标记 | 输出 $/百万标记] $0.25 | $1.25
上下文窗口 200K
潜在用途
客户互动:在实时互动中快速准确地提供支持,翻译
内容管理:捕捉风险行为或客户请求
节省成本的任务:优化物流,库存管理,从非结构化数据中提取知识
差异化 智能、速度快、价格更实惠,胜过其智能类别中的其他模型。
Opus和Sonnet现在可以在我们的API中使用,现在已经普遍可用,使开发人员能够注册并立即开始使用这些模型。Haiku很快就会发布。Sonnet 为 claude.ai 上的免费体验提供支持,Opus 则可供 Claude Pro 订阅用户使用。
Sonnet今天也可以通过Amazon Bedrock和Google Cloud的Vertex AI Model Garden 私下预览,Opus和Haiku很快也会在这两个平台上使用。
我们认为模型智能还远未达到极限,并计划在接下来的几个月里频繁发布 Claude 3 模型系列的更新。我们还将发布一系列功能,以增强我们模型的能力,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(又名函数调用)、交互式编码(又名 REPL)以及更高级的代理能力。
随着我们不断突破人工智能能力的界限,我们同样致力于确保我们的安全护栏能够跟上这些性能飞跃的步伐。我们的假设是,走在人工智能发展的前沿,是引导其轨迹走向积极社会成果的最有效方式。
我们很期待看到您使用 Claude 3 创造的内容,并希望您能给我们反馈,以使 Claude 成为更加实用的助手和创意伴侣。要开始使用 Claude 进行构建,请访问 anthropic.com/claude。
暂未开源……
在线使用地址:Claude \ Anthropic
有意思的应用,正在开发中……
更新中……
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。