赞
踩
绿杨烟外晓寒轻,红杏枝头春意闹。
小伙伴们好,我是公众号《小窗幽记机器学习》的小编:卖仙豆的小女孩,今天这篇小作文主要介绍Claude 3,主要包括三部分:
介绍Claude 3的特点
介绍如何使用Claude 3
实测Claude 3
如需与小编进一步交流,可以在公众号《小窗幽记机器学习》上添加小编微信好友。
OpenAI的最强竞争对手Anthropic于3月4日发布了新一代AI 大模型系列:Claude 3。Claude 3 包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku(中杯)、Claude 3 Sonnet(大杯) 和 Claude 3 Opus(超大杯)。这些模型分别适用于不同场景,Opus能力最强,Sonnet平衡速度和能力,Haiku最快,适合互动型AI应用场景。Opus和Sonnet现在可以在claude.ai上使用,也可以通过Claude的API使用,该API已面向159个国家正式推出(当然,一如既往地不让我们玩,期待有战狼为开发者发声)。另外,Haiku暂时还没有推出,官方说,快了。
官方表示后续将推出一系列功能来增强模型能力,包括工具使用(即函数调用)、交互式编码(即REPL)和更高级的Agent能力。
Claude 3中的Opus是最智能的模型,在多个AI系统评估基准,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)上完胜其他模型。Opus在复杂任务上展现出接近人类水平的理解和流畅性,确实一定程度上代表了通用智能的最前沿。
所有Claude 3模型在分析和预测、细致内容创作、代码生成以及与西班牙语、日语和法语等非英语语言进行对话方面的能力均大幅提升。以下是Claude 3模型与其他大模型在多个评测基准上的比较结果:
Claude 3模型可以用于客户实时聊天、自动完成和数据提取等任务,其中回复必须即时和实时。Haiku是市场上在其智能系统中速度最快、成本最低的模型。它可以在不到三秒钟的时间内阅读一篇信息和数据密集的arXiv研究论文(约10,000个token),包括图表和图形。
在绝大多数工作中,Sonnet比Claude 2和Claude 2.1快2倍,并具有更高水平的智能。它擅长于需要快速回应的任务,如知识检索或自动化销售。Opus的速度与Claude 2和2.1相似,但更智能。
Claude 3模型具备与其他领先模型相当的复杂视觉能力,从而可以处理各种视觉格式,包括照片、图表、流程图等。一些企业客户的知识库高达50%的内容以PDF、流程图或演示幻灯片等多种格式进行编码,那么这种视觉能力就可以很重要。
之前的Claude模型常常做出不必要的拒绝回答,这表明它们缺乏上下文理解。Opus、Sonnet和Haiku相比前一代模型,在接近系统限制的提示上,它们拒绝回答的可能性明显较低。如下所示,Claude 3模型对请求有更细致入微的理解,能够识别真正的危害,并更少地拒绝回答无害的提示。
模型输出的高准确性在大规模应用中至关重要。为了评估这一点,使用一组大量的复杂事实性问题,针对当前模型的已知弱点。将回答分为正确答案、错误答案(或幻觉)以及承认不确定性(即模型表示不知道答案而不是提供错误信息)。与Claude 2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)提高了两倍,同时也降低了错误答案的水平。
除了产生更可信的回答外,后续的Claude 3模型将启用引用功能,这样可以指向参考资料中的精确句子来验证其答案。
Claude 3模型系列在推出时提供200K的上下文窗口。然而,这其实是隐藏了真正实力,这3个模型其实都能够接受超过1百万个token的输入。只是,这项能力只会面向特定客户开放。
为了有效处理长上下文提示,模型需要强大的回忆能力。"大海捞针"(Needle In A Haystack) 评估衡量了模型从大量语料库中准确回忆信息的能力。通过在每个提示中使用30个随机的"针"与问题配对,并在一个多样的众包语料库文档上进行测试,提升了这个基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率高于99%。
Claude 3官方拥有多个专门的团队,致力于追踪和缓解各种广泛的风险,包括错误信息、儿童性虐待物品(CSAM)、生物滥用、选举干扰和自主复制技能。此外,Claude 3开发团队不断研究新方法,如宪法AI(Constitutional AI),以提高模型的安全性和透明度,并调整模型以减轻可能由新模态引发的隐私问题。
解决日益复杂的模型中的偏见是一个持续的过程,在这个新版本中也取得了进展。根据问题回答的偏见基准(BBQ),Claude 3比以前的模型带有更少的偏见。官方致力于推进减少偏见、促进模型更大中立性的技术方法,确保它们不偏向任何特定的党派立场。
虽然与以前的模型相比,Claude 3模型系列在生物知识、网络相关知识和自主性方面取得了进展,但根据Responsible Scaling Policy, 它仍处于AI安全等级2(ASL-2)。Claude 3的红队评估得出的结论是,目前模型对灾难性风险的潜在影响微乎其微。我们将继续密切监控未来的模型,以评估它们与ASL-3门槛的接近程度。Claude 3模型卡中提供了更多安全细节。
在易用性方面,Claude 3模型在遵循复杂的多步指令方面表现更好。比如,针对不同品牌,特别擅长遵循品牌声音和特定的回复规范,从而为客户开发更可信的体验。此外,Claude 3 模型在生成JSON等结构化输出格式方面表现更好,这使得对Claude进行自然语言分类和情感分析等用例的指导更加简单。
官网入口
Opus和Sonnet的API已经全面推出,开发人员可以立即注册并开始使用,但是Haiku还在准备中,据说也快了。Sonnet在claude.ai上每天可以免费体验一定次数:https://claude.ai/chat/ ,而Opus则适用于Claude Pro订阅用户。
Sonnet今天也可以通过亚马逊的Bedrock和Google Cloud的Vertex AI Model Garden私人预览来使用, Opus和Haiku即将在这两个平台上推出。
Poe
通过Poe的官网 https://poe.com/,免费使用 Sonnet, 每天有限制,可付费订阅解锁更大上下文以及 Opus:https://poe.com/Claude-3-Opus
Lmsys
Lmsys现在可以免费体验Opus、Sonnet,但只支持文本,无法处理附件或图片, Lmsys网站入口:https://chat.lmsys.org
Perplexity
通过Perplexity官网:https://www.perplexity.ai/ 进入。Perplexity Pro 会员现在每天可以使用 5 次 Claude 3 的 Opus 模型。
以下用Sonnet版进行实测。为啥不用Opus,别问了,桑心~
所选用的论文标题:
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
论文地址:
https://arxiv.org/abs/2403.03507
更长的论文解读可以查看本期的:【论文解读系列】GaLore: 突破内存瓶颈,4090预训练7B大模型不是梦!这篇文章。
这里只要求50字以内摘要结果:
- GaLore是一种新的大型语言模型训练策略,
- 通过利用梯度矩阵的低秩结构减少优化器状态的内存消耗。
- 它不仅在内存效率上优于LoRA等低秩适配方法,
- 还可以在不影响性能的前提下,
- 将内存使用降低65.5%以上。
- 更重要的是,GaLore使得在消费级GPU上从头训练十亿参数模型成为可能,这为AI的民主化和推广带来了重大进展。
测试case:
python内建的split()函数只能使用单个分隔符,如果我的分隔符有多种字符呢,该怎么处理?test_text="爱坤,爱哭|爱堃;爱困"
生成代码如下:
- import re
-
- test_text = "爱坤,爱哭|爱堃;爱困"
-
- # 定义多种分隔符的正则表达式模式
- pattern = r'[,|;]'
-
- # 使用re.split()函数进行分割
- result = re.split(pattern, test_text)
-
- print(result)
实测,可以正常运行且结果符合预期:
['爱坤', '爱哭', '爱堃', '爱困']
测试case1:
可能是爱坤的咖位不够,或者说由于全球影响力不足,导致没有被纳入训练数据集里面。诸位爱坤,为爱豆努力的时候到了,不想AI连爱豆都不认识吧?V我50,走不正规审批后门流程,将爱豆的数据加到训练集!!!
测试case2:
以下是微博热搜截图,将张图的内容,转为markdown格式:
输出结果:很好,我已经将图像内容转换为markdown格式如下:
序号 | 关键词 |
---|---|
1 | 在发展中稳步提升民生保障水平 |
2 | 花店接5万2现金花束大单竟是洗钱 |
3 | 西班牙将正式承认巴勒斯坦国 |
4 | 两会送出文旅上分攻略 |
5 | 妈妈一个人敲诈了儿子的房间 |
6 | 9块9的咖啡还能赚多久 |
7 | 女警脱下制服递枪车内产子的妻妇 |
8 | 王曼昔3比2阿库拉 |
9 | 被我拿去的你 原生家庭 电影 |
10 | 沙丘 沙虫 电影 |
11 | 人大代表拿出我国文创瞻目被国观 |
可以看出,效果还是不错的,但是部分识别内容出错,比如识别结果中的妈妈一个人敲诈了儿子的房间
,其实正确结果应该是妈妈一个人改造了儿子的房间
。OCR能力还不错,但是还有较大的提升空间。
Claude 3支持200K token的超长上下文,还具备图像识别能力。最强的Opus模型在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,同时刷新了数学、编程、多语言理解、视觉等多个行业基准纪录。实测Sonnet版之后,效果确实不错,值得白嫖!强行安利!
众所周知,Claude是由OpenAI前员工创办的公司Anthropic所推出。那么习惯了竞业的我们不禁要问,为啥OpenAI不竞业掉这些前员工?仅仅是因为硅谷所在的加州立法禁止竞业协定?还是有其他不为人知的原因?先进的竞业协议何时推广到湾区?卡ta们的脖子,拭目以待!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。