赞
踩
3月4日,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。
该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
与此同时,为了介绍自家的这三款模型,Anthropic更是一口气发了一份长达42页的技术报告,报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
下图是Claude 3系列模型与其他同类型模型在多个能力评估基准上的对比:
其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。 值得一提的是,Opus不仅在各项AI系统常用评估标准中表现出色,如本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),而且在这些领域中都取得了领先业界的性能,堪称业内佼佼者
尤为引人注目的是,在处理复杂任务时,Opus展现出了几乎与人类相媲美的理解和表达能力,是AGI领域的领跑者。
不仅如此,Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等一系列考试中的表现同样令人瞩目,成绩和GPT-4不相上下,甚至大比分超越。
通过阅读Anthropic发布的公告和技术报告,我们可以发现本次的模型主要有以下特点:
Claude 3系列型号在首次发布时最初提供了约200K的上下文窗口。然而,官方声明指出,所有三个模型均具备处理超过100万token输入的能力,并将此功能提供给需要增强处理能力的特定用户。
为了有效地处理长上下文提示,模型需要强大的召回能力。 Needle In A Haystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic通过在每个提示中使用30个随机的Needle/question对在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到「针」句子似乎是人为插入到原始文本中的。
这一结果不仅突显了Claude 3 Opus在处理大量信息时的出色表现,还展示了其在理解上下文并对其进行精准回溯方面的卓越能力。这种高度的准确性和对评估限制的敏感性使其在各种应用场景中都表现得相当出色。
以前的Claude模型经常因缺乏对语境的深刻理解而做出不必要的拒绝,这表明其在处理用户请求时存在一定的局限性。然而,Anthropic在这一领域取得了显著的进展:相较于前几代模型,即使用户的提示接近系统底线,Opus、Sonnet和Haiku拒绝回答的可能性明显降低。
如下所示,Claude 3模型对请求表现出更为细致的理解,能够识别真正有害的提示,并且拒绝回答无害提示的频率更低。这意味着新一代的Claude模型在语境理解方面取得了实质性的改进,增强了对用户请求的敏感性,使得拒绝回答更加准确而精细。这一优越性不仅提高了模型的应用范围,还增强了用户与系统之间的交互质量,为用户提供更加满意和精准的服务。
虽然GPT-4也具备识别图像的能力,然而通过一个评测识别能力的榜单以及官方演示视频可以明显看出,Claude 3的表现非常出色,能够精准捕捉细节。
从以下榜单可见,Claude 3 Opus的识别性能与我们认为是最强大的视频/图片理解模型之一的GPT-4V相媲美,甚至在"Science Diagrams"领域显著领先GPT-4V。Claude 3不仅展示了出色的识别性能,还在复杂的视觉功能上与其他顶尖模型相媲美。它们能够处理多种视觉格式的数据,包括照片、图表、图形和技术图表。
Anthropic表示,他们的一些客户的知识库中超过50%的内容以各种数据格式编码,例如PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力极大地提升了其在实际应用中的实用性,为处理多样化数据提供了极大的帮助。这一创新不仅使Claude 3在图像理解方面表现卓越,还为用户提供了更为全面和高效的信息处理能力。
Claude 3 模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。
Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。
目前,用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。
官网地址:Home \ Anthropic,但是 Opus,和 GPT plus 一样,收费是 20 美元/月
目前Claude3 的升级和 Openai 一样,都不支持国内用户使用信用卡支付,推荐大家可以试试使用虚拟银行卡进行升级,大同小异(ps想了解更多相关信息的同学可以点击个人网站)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。