长文干货！老程序员测评文心一言4.0模型代码能力！_百度文心一言3.5和4.0代码能力有加强吗

作者：不正经 | 2024-05-19 18:00:33

踩

百度文心一言3.5和4.0代码能力有加强吗

前言：老程序员聊聊AI和国产大模型

第一关：代码质量和可用性——写个可运行的游戏代码

第二关：需求理解和记忆能力——多轮对话下的任务能力

总结

前言：老程序员聊聊AI和国产大模型

大家好，我是一名老程序员了，大模型出来后我算是一直在尝试各种AI工具，尤其是AI辅助研发的方向（可能有点焦虑？），包括上个月的AI程序员Devin发布我也在关注，大模型的能力发展太快了，我还是想努力跟上。

我个人一直支持国产大模型，也算文心一言的老用户啦，去年3月刚内测的时候就在用了，那时候特振奋，想着国内终于有一款大模型了，刚开始用的时候很坎坷啊，用起来一直达不到预期。

不过文心一言的模型能力还是在肉眼可见地变好，我现在的情况是付费使用文心一言4.0模型（免费的3.5模型基本不用了），我的感官是文心一言4.0模型对比3.5在各个方面是有明显提升的，迭代速度也更快（可能是商业化后会存在训练资源倾斜？），我看各大平台很少有一言4.0模型的测评，所以今天专门写一篇。

我平时用的最多的还是代码和文本生成（周报写文档你懂的），偶尔玩玩文生图，今天主要给大家测一测文心一言4.0模型的代码能力！

大模型的代码能力可以拆解的维度很多，我今天主要关注的是代码生成质量和可用性，需求理解能力和记忆能力2个方面。

第一关：代码质量和可用性——写个可运行的游戏代码

废话不多说，我们先看看代码的生成质量和可用性——写一个五子棋吧：

我去测试AI的代码能力的use case是——我会让AI写个小游戏，底层逻辑是AI需要理解游戏的规则，并且转译成代码，还必须是可运行的代码，这可能是程序员视角下的“多模态”能力吧，哈哈。

所以我让文心一言4.0模型帮我写一个能跑起来的【五子棋】游戏代码，我们看看生成的代码质量（对话截图参考下方）

那么关键来了，是否可以运行呢？

我们直接copy下来在开发环境中运行，运行起来没问题，定义好了2个棋手交替下棋，一方到5个棋子后游戏判定结束，可以看下方视频截屏。

五子棋

第一关，代码质量和可用性，文心一言4.0模型测试通过～

第二关：需求理解和记忆能力——多轮对话下的任务能力

下面我们看文心一言4.0模型的需求理解能力和记忆能力，测试开启：

很多时候我们在AI代码生成上不是一问一答就结束了，最常见的情况反而是——要求AI不断调整生成的代码，这对AI的记忆和需求理解能力提出要求，下面我会模拟这个情景：

我们看看4.0模型能不能帮我写一个【机器学习代码】，简单来说是对【单层感知机】做一个正负向分类的训练，prompt+回复截图参考下方截图：

我向大模型提问有没有更好的方式实现我的诉求，这考验4.0模型是否真的理解我在做什么，以及对机器学习的了解，我们接着往下看：

文心一言提出了有神经网络和支持向量机2种方法，给出的说明说明很具体很有信息量，说明对我的需求理解程度是在线的，以及展示了对复杂机器学习算法问题的解决能力。

那我们下面让4.0模型直接按照【支持向量机】再帮我写一个新的代码呢？4.0模型还会记得住我们在讨论什么吗？

代码基本可用，因为数据集太小，还专门提示我没必要拆分训练集和测试集（大数据集下通常会做拆分），算是比较贴心了。

所以第二关，需求理解和记忆能力，4.0模型通过！

总结

整体看下来，文心一言4.0模型在代码生成质量和可用性，需求理解能力和记忆能力2个方面表现不错，我自己用的时候基本能满足我的代码诉求，当然我自己还会用4.0模型帮我写一些工作汇报和其他工作文档，中文能力也很不错，中文能力也确实一直是文心一言的核心竞争力啦。

最近文心一言付费会员还上线了【工具版】，上线了Agent框架下的复杂任务的规划、调用工具的能力，算是一个亮点，下次再和大家分享。

如果大家也想快速使用文心一言4.0模型，可以

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/594020

推荐阅读

相关标签