我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

国产大模型猛追ChatGPT：讯飞星火V3发布，明年冲击GPT-4_国产大模型猛追chatgpt:讯飞星火v3发布,明年冲击gpt-4

作者：我家小花儿 | 2024-05-31 20:39:38

赞

踩

国产大模型猛追chatgpt:讯飞星火v3发布,明年冲击gpt-4

国产大模型正在猛追ChatGPT。

继不久前百度最强大模型发布时宣称“不逊色GPT-4”，如今讯飞迎头追赶，今天正式发布的讯飞星火认知大模型V3.0，对标的对手依然是——ChatGPT。

科大讯飞董事长刘庆峰宣布，星火认知大模型V3.0七大维度能力全面提升，中文能力客观评测超越ChatGPT（GPT3.5）、英文能力与之相当，医疗领域超越GPT-4。

听上去可谓振奋人心，实际表现究竟如何？“头号AI玩家”今天也来到了大会现场，据现场演示，最新版本的星火认知大模型可以创作有声绘本，输入主题，AI会自动生成故事情节和绘图，前后主角形象保持一致；

Prompt：“一只充满好奇心的小兔子想开启一段太空之旅”

新增AI角色对话功能，比如以刘备的身份问AI诸葛亮，星火大模型能不能帮助一统三国；

AI诸葛亮表示认可：“此星火大模型，实乃人工智能之佳作”

上传自己的文本数据还能训练一个AI分身，写一封信哄哄生气的女儿；

AI学习了父女的聊天记录，以父亲的口吻写信

据了解，自今年5月6日首次亮相以来，星火认知大模型在短短数月完成了从V1.0到V3.0的迭代，目前用户数已突破1200万。按照科大讯飞的目标规划，下一步就是在2024上半年对标GPT-4。

目前，讯飞星火网站和APP已更新至V3版本，为了进一步了解处于中国大模型第一梯队的科大讯飞真实表现如何，“头号AI玩家”还在第一时间进行了实测。

讯飞星火认知大模型V3实测

科大讯飞将当前通用人工智能的能力概括为七个维度：文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

话不多说，我们先选了几个问题，来综合测试一下它在日常生活和工作场景中的表现。

讯飞星火网站：https://xinghuo.xfyun.cn/desk

首先是定制AI人设：

用刘庆峰的话说，大模型仅有专业知识还不够，具备个性化的AI人设，才能为星火注入“灵魂”。

围绕AI人设定制，讯飞此次推出了新功能“友伴”，它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设，再结合特定知识学习、对话记忆学习，形成一个独特的AI人设。

无论是孙悟空、秦始皇、林黛玉，还是福尔摩斯、话痨威震弟，都可以通过这一工具，实现与这些古今中外、现实或虚构角色的对话。

我们先找孙悟空聊了聊，他的设定是一个智慧活力的猴王，热爱冒险，追求自由。

我问他现在在哪，他说四海为家。

同时，他也遵循了西游记原著的设定，比如我问他有几根毛，他说数不清，不过这些毛发可以变成其他物体来应对挑战。

除了文字对话，点击右上角的电话按钮还能和AI角色语音对话，但声音比较生硬，还是念稿的感觉，而且聊得久了，问到一些现实问题，AI容易脱离角色设定。

此外，也可以尝试自己创建新的人设，深度创建模式支持上传数据集，设计更复杂的三观等参数。

根据科大讯飞的介绍，自10月21日凌晨更新版本后，48小时内首批用户已创建了3000个人设。

创建新友伴页面

其次是看表情猜成语：

我向讯飞星火发起了一个流行的小游戏，让它根据emoji表情猜成语。

每个表情对应一个汉字，对于直译的“走马观花”，它很快就答对了，并解释了含义和出处。

不过，对于谐音，有时它只能猜中一半，比如把“前因后果”（“钱音猴果”）当成了“财大气粗”。

第三，幽默问答：

每个AI必经的智商检测题，我们也来考考讯飞星火：“水开了可以喝，门开了为什么不能喝？”

讯飞星火没有上当，直接指出了这是个脑筋急转弯题目，根本难不倒它。但是对于一些幽默的打工人表情包，讯飞星火就有点读不懂了。

第四，总结长文档、做PPT：

讯飞星火目前支持PPT生成、文档问答、简历生成、ProcessOn（流程图生成）四个插件，我们来试试让它总结关于人工智能版权问题的英文论文，并做一个完整的PPT。

由于一个对话中暂时不能同时调用两个插件，因此先整理好文稿后再生成PPT。

可以看到，讯飞星火迅速翻译、总结了论文概要，并给出了15页图文并茂的PPT，整体脉络清晰，但部分论述有误，图片不符合文意，需要手动修改。

第五，高考数学题：

数学一直是大模型的能力短板，我们选了两道2023年高考数学填空题来测试。

第一题比较简单，讯飞星火分情况讨论给出了正确答案。

题目：某学校开设了4门体育类选修课和4门艺术类选修课，学生需从这8门课中选修2门或3门课，并且每类选修课至少选修1门，则不同的选课方案共有？种

答案：64

第二题做错了，虽然讯飞星火设好了x和y，但没有根据“中位数、平均数相等”列出正确的等式。

题目：某地一年四个季度的GDP（亿元），第一季度GDP为232，第四季度GDP为241，且四个季度的GDP逐季度增长，中位数、平均数相等。则该地一年的GDP为？（亿元）

答案：946

第六，虚拟人视频：

考虑到最近刚刚发布的百度文心大模型4.0可以生成一套广告营销素材，同样的需求我们也给到了讯飞星火，考考它的多模态生成能力。

比如，双十一来了，让讯飞星火做一张科大讯飞学习机的商品海报吧！

得到的结果乍一看的确像模像样，不过，学习机的图片并没有参考官方的商品图，并且无法像DALL·E 3那样生成比较准确的文字。

相比商品图，AI更擅长生成广告文案，讯飞星火一口气给出了五段。

然后，我们要求它根据以上信息做一个虚拟人口播视频，讯飞星火默认生成了一段横屏视频，背景主要是跟校园、学习用品有关的图片轮播，一位穿着粉色裙子的可爱主持人念着广告文案，并自动配上了视频字幕，不过AI把五段文字都念完了，配音也是偏成熟的机器音。

目前生成的虚拟人视频支持分享查看，但不能直接下载使用。

以上是初步实测，总得来说，讯飞星火V3的整体能力有所提升，生成速度依旧很快，多模态能力需要继续加强，新增的虚拟角色对话丰富了交互形式，可以满足娱乐需求，至于是否能用于提高生产力还要看“调教”程度。

落地科研、教育、医疗，AI+产业应用加速

除了讯飞星火认知大模型，本次科大讯飞还发布了针对不同人群需求、不同行业场景的新产品和大模型。

首先是代码能力再升级，搭载讯飞星火V3.0的智能编程助手iFlyCode2.0正式发布，在编程的设计阶段提效50%、开发阶段提效37%、测试阶段提效44%，大幅提升软件从业人员效率。

科大讯飞内部开发也在使用iFlyCode辅助，平台迁移原本需要3个月的开发工作1个月就能完成。

在科研领域，讯飞星火和与中科院文献情报中心联合发布科技文献大模型，可以实现成果调研、论文研读、学术写作三大功能。

据现场演示，AI能将十几份量子计算论文一键生成综述报告，帮助科研人员快速了解最新论文。

教育方面，基于星火大模型V3.0的讯飞AI学习机再度升级，新增AI答疑辅学功能，遇到错题可以找AI老师探讨思路，在互动中学习。

同时，科大讯飞发布AI心理伙伴，能够“听懂”孩子的心事，帮助心理减压和疏导问题。

医疗方面，讯飞星火医疗大模型和讯飞晓医APP正式发布，看病前、买药时、拿到体检报告后都能向AI咨询。

国家科技信息资源综合利用与公共服务中心（STI）第三方测试数据显示，讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文本生成、医疗诊断治疗推荐的问题回答率全面超越GPT-4。

今年以来，科大讯飞在大模型领域已落地了AI学习机、办公本等面向C端的软硬件，在B端业务赛道应用也持续加速。本次讯飞联合行业龙头共同发布12个行业大模型，包含金融、汽车、运营商、工业、住建、物业、法律等行业。

大模型日益与每个人息息相关，当前讯飞星火已有1200万用户，同时开发者门槛进一步降低，在讯飞星火上，目前已有1.5万助手开发者，开发超2.9万个助手应用。

“国产大模型跟GPT4还有四点差距”

“解放生产力，释放想象力”，这是科大讯飞大模型的目标。

随着大模型持续突破，模型能力和产业生态都在飞速发展中，我们正在接近这一理想目标。

与此同时，刘庆峰也提到，国产大模型必须正视和GPT-4的差距。

“国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上距GPT-4还有差距。”他表示，唯有实事求是的科学精神，才能真正实现超越。

大会上，讯飞联合华为共同发布“飞星一号”大模型算力平台，合力打造我国通用人工智能新底座，让国产大模型架构在自主创新的软硬件基础之上。

据介绍，更大参数规模的星火大模型正式启动训练，2024年上半年将实现对标GPT-4。

“通用人工智能是这个时代最确定的增长动力来源”，包括科大讯飞在内的AI玩家正从底层的软硬件到各行业的应用层寻找新的增长机会。

谁能真正赶超ChatGPT？恐怕不是一两个测试集就能证明的，最终还是要看实际应用的效果。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/654280

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号