当前位置:   article > 正文

我们如何训练和应用大模型?

我们如何训练和应用大模型?

以 ChatGPT 为代表的大语言模型(LLM),在人工智能研究中再次掀起了一波新的技术创新与应用。在通用大模型的竞赛中,先入局者往往能占据先发优势,成为 AI 2.0 时代的领头羊。

百度文心一言、华为盘古、阿里通义千问、字节火山方舟......无论对于哪家公司来说,这场竞赛的目标都是一致的:让模型有用,让成本下降,让 AI 成为盈利的起点。我们在今年早些时候,也开始从各 Team 中抽调出一部分人。组建了新的人工智能小组,做大模型方面的探索和尝试,希望能够借助它的力量提高研发效率。

确定了“要做”,接下来的问题是“怎么做”。当我们站上起跑线,发现事情并没有那么简单,甚至有点让人迷茫,而这恰恰是大语言模型技术的最大挑战所在。说说遇到的问题:

第一就是整合现有的企业内部数据,因为大语言模型不是通过我们企业内部数据训练的,这就会影响到它答复的相关性和准确性。

第二就是整合到程序中时,如何让大语言模型的输出能够被程序所使用。大语言模型的输出具有不确定性,我们人类的理解能力,可以很容易地看懂大语言模型的回复不同;而通常程序对于输入的参数形式都有着固定要求。

第三就是和外部环境交互的问题,也就是让大语言模型,跟企业中其他的系统和服务交互起来。

一些轻量的日常任务很容易搞定,如辅助文档编写、问题回答、程序开发等。但怎么把大模型融入到实际企业应用开发中,可以参考的案例和经验非常少。

前段时间在 QCon 还有 ArchSummit 大会上,蔡超分享了相关实践经验和思考,但是当时受演讲的时间限制,很多东西没有讲完,我们在场的很多伙伴们,都希望超哥能够出一门相关的课程。所以当得知他的《AI 大模型企业应用实战》视频课上线,我第一时间就订阅了。

在视频课中,他分享了 GPT API 编程要点 + LangChain 使用技巧,针对企业应用引入 LLM 的常见问题给出了清晰明确的解决方案。把大模型融入研发,其实是个“相互适应”的过程,我们不光要关注怎么让大模型优雅地融入演化过程,还要学习如何调整和转变现有的架构思维研发方式,这样才能充分发掘大模型的价值。

187e1a0262115f818745cf2442c0d2ac.jpeg

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/375863
推荐阅读
相关标签