Cpp五条

这个屌丝很懒，什么也没留下！

热门标签

ChatGPT最强对手，实测却输给了文心一言！_chargpt强敌

作者：Cpp五条 | 2024-02-17 23:47:55

踩

chargpt强敌

侵犯版权、隐私、遭遇轮番起诉，ChatGPT访问量直线下降，市场竞争力暴跌！

就在此时，Open AI的最强竞争对手Anthropic趁虚而入，推出Claude 2，杀它个措手不及。一批网友抢先体验过后，铺天盖地一片好评。

据悉，Claude系列刚被推出时就被给予厚望，由于创始团队都在Open AI任职过，技术过硬，呈现出的效果相当完美，意图理解也非常优秀。而且还推出了Claude Chat网页版，完全免费！

在性能方面，Claude 2正式支持10万tokens的输入，并且可以一次性输出4000个tokens。

此外，由于使用了2023年的数据训练模型，Claude 2“了解时事”，输出内容更具时效性。这些性能的改进都大大提升了Claude 2在用户心目中的分量。

Anthropic官网上描述说：“我们很高兴发布Claude 2新模型，不仅改进了性能，还延长了响应时间，可通过API及面向公众的测试版网站Claude.ai进行访问。”

1、性能提升：文理通吃、为安全保驾护航

相较ChatGPT，Claude 2有如下优势：

首先是token：GPT-4的下限默认为8k个token，上限32k个token，而Claude 2是100k个token，与GPT-4根本不是一个量级！

然后是费用，GPT-4每月支付20美元，而Claude 2是完全免费的！

由于Claude 2具有更长的token，长文本处理能力更强，在文科方面发挥出了优势。

在美国律师资格考试的多选题部分可以取得76.5%的正确率，前代Claude 1.3仅为70%。在GRE阅读和写作测试中，得分超过90%应届毕业生。而在美国医师执照考试中，Claude 2在3个科目中的分数都超过了60%，获得ALL PASS佳绩。

不仅如此，Claude 2还文理通吃，在编程、数学和推理方面准确率大大提升。

在迭代的过程中，Claude 2的安全性变得更强、受模型的约束，很难产生具有攻击性或危险的输出。研发团队内部特设评估团队，针对大量有害提示对模型评分和自动化测试。团队也会定期亲自上手检查结果，确保万无一失！

结果表明，在整个评估环节中，Claude 2在给出无害反馈方面比Claude 1.3强2倍。

鉴于安全、功能及性能有所提升，Anthropic宣布Claude 2在美国及英国开放全面公测，他们也计划未来几个月内再扩大测试对象。

2、生态强：多领域、跨学科合作

Anthropic的理念是多领域、跨学科合作，与数千家使用Claude API的企业建立了合作关系。

其中之一是AIGC独角兽公司Jasper。Claude 2能够在各种用例中与其它最先进模型齐头并进，在长时间、低延迟使用方面具有特别的优势，为客户生成独具创意的广告文案内容。

Jasper工程副总裁Greg Larson表示：“我们很高兴能够成为首批向客户提供Claude 2的公司之一。它增强了语义、带来最新知识培训、能够对复杂提示进行推理改进。”

Sourcegraph是AI代码平台，可帮助客户编写、修复和维护代码。编码助手Cody使用Claude 2改进的推理能力为客户提供更准确答案，同时，还通过token高达100K的上下文窗口传递更多代码库。此外，Claude 2的训练数据更新，可获取新框架和库的知识。

Juni Learning是在线教育解决方案的领先提供商，使用Anthropic为其Discord Juni Tutor Bot提供支持，帮助学生完成学业。

3、Open AI内忧外患，挑战者的好时机

近日，据外媒报道称，OpenAI的核心员工正在流失到谷歌。其中一些员工已经辞职并与谷歌签订了合同，另外一部分人也将在近期离开OpenAI。

虽然此次核心员工离职潮看起来是OpenAI爆炸式增长引发的一系列管理问题，但深究其本质原因，或许是员工对CEO管理的不满以及对ChatGPT技术举步不前的失望造成的。

凭借着微软100亿美元的资金，OpenAI似乎满足于追逐他们最大的摇钱树 ChatGPT，但对于ChatGPT进一步开发计划却迟迟没有下文。如此看来，3月份亮相的Claude正朝初心方向发展，而ChatGPT却中途停滞。

不仅是内忧、外患也一并袭来。马斯克虎视眈眈，又有大动作！其旗下又一家公司问世！当地时间7月12日，马斯克在推特上宣布：人工智能公司——xAI正式成立。

xAI的官网已上线。据介绍，该公司由马斯克本人亲自带队，而其他成员则来自DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉、多伦多大学等，曾参与过DeepMind的AlphaCode和OpenAI的GPT-3.5和GPT-4聊天机器人等项目。

从成员组成看，如此高端，马斯克或将xAI定位为与OpenAI、Google和Anthropic等公司同台竞技，他们多是知名聊天机器人的推手。

xAI公司号称宗旨是“了解宇宙的真实本质”。7月14日，该公司团队将在推特空间举行发布会，进一步解答网友的问题。

4、版本评测

官网消息显示，今年3月，Claude被正式推出，当时发布了两个版本，即，Claude1.3和Claude Instant1.1，各司其职、特性各异。

在基本的评测中，研究者也比较了三个版本。数据证明，新版本功能提升极大，主要表现在如下方面：

如上表所示，在Python函数合成（Codex P）、GSM8k（小学数学问题）、MMLU（多学科问答）、QuALITY（长故事问答测试）、ARC-Challenge（科学问题）、TriviaQA（阅读理解）和RACE-H（高中阅读理解和推理）上，Claude 2的大部分得分都更高了。

官网上也透露说：“Claude具有高性能，而Claude Instant更便宜、更快。”

5、鸡兔同笼，输给了文心一言

为实测Claude 2的能力，我们尝试用“鸡兔同笼”问题测试文心一言和Claude 2，并进行了对比。

如图所示，Claude 2的中英文都输出了错误的答案...

而用文心一言进行测试，竟然算对了，看来还是文心一言靠谱！

有趣的是，ChatGPT中文版算对而英文版算错了！实测有点打脸！看来，Claude 2数学能力提升任重而道远。

6、用户：Claude比ChatGPT更健谈

再来看看用户反馈如何，Claude生成的对话文字似乎比ChatGPT更灵活！

“Claude比ChatGPT更健谈，在讲故事时更具互动性和创造性。”一位用户留言说。

“我个人喜欢Claude的答案呈现方式，深入而简单，”一位用户评价说，他对Claude的语言技能和专业知识问答印象深刻。

主要合作伙伴之一Quora通过AI聊天工具Poe也向用户展示了Claude。“用户普遍认为Claude的回答详细且易于理解，交流时感觉像普通交流对话，”Quora的人员和通信主管Autumn Besselman说。

用户应明确，Claude与所有当前模型一样，会输出不合理内容。但是，这并不妨碍你与Claude 交谈。用开放、包容的心去使用吧，体验地址在这里：https://claude.ai/chats，祝您玩得愉快！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/102486