当前位置:   article > 正文

网易有道CEO周枫:大模型应用场景落地的探索与发展_网易有道ceo 周枫 大模型场景落地:应用领域的探索与发展

网易有道ceo 周枫 大模型场景落地:应用领域的探索与发展

1月27日,由中关村科学城管委会、CSDN中国开发者网络共同主办的中关村开源生态论坛暨大模型智能应用技术大会在中关村论坛新会址举办。作为中关村论坛新会址建成后的首场活动,本次大会不仅聚集了大模型生态上下游领军企业和技术专家,还邀请海内外开源技术领袖与开源活跃贡献者齐聚海淀,助力开源人工智能的创新发展。

在主会上,网易有道CEO周枫发表了《大模型场景落地:应用领域的探索与发展》主题演讲,带来了他对于开发者生态的最新思考。
在这里插入图片描述

以下是演讲实录整理:

在 2023 年,人们普遍感受到了行业大规模变革所带来的巨大影响,这种变化完全可以用“颠覆”来形容。通常情况下,行业的发展是线性的,但在 2023 年,行业的发展出现了一个转折点

大模型所带来的变化,我的感受:

  • 强大的知识能力,这个AI界想解决了30年的问题,一夜之间解决了。
  • 强大的语言和情绪的能力,也很震撼。
  • 统一性和多模态:终于有一些人工大脑的意思了,这也是一个突变。
  • 缺点也不少:比如数理逻辑还不够,以及价格比较昂贵。

面对如此重大的技术变革,网易公司及网易有道对于如何应对大模型问题,在去年逐渐形成了两个基本判断。

第一个,这样的技术带来颠覆或者说用一个经济学术语来说,是创造性破坏。

你拥有的东西可以很快就没有了,但如果你动作够快,以及够准,那么就有打开新局面的机会。

我们第二个基本的判断,大模型的浪潮将持续10年甚至更长,且应用层机会巨大,大模型创新机会巨大,且刚刚开始。那么,2024年大模型正式进入加速落地期,迎来大模型应用元年。

这里我把移动互联网和大语言模型的发展时间线放在一张图上看:

在这里插入图片描述

从2007年iPhone一代推出,到微信、到手机游戏产业发展,再到2016年抖音的上线,恰好经过了十年时间。

我们相信大模型会是一个类似的过程,2022年ChatGPT上线,23年GPT4发布,的确才刚刚开始。

我今天下面时间讲两方面内容:

  • 一个是寻找LLM的应用机会中的一点体会;
  • 二是开源对大模型助力的一点思考。

所以,大模型创新机会巨大,且刚刚开始,我们要从应用中找到千亿级的市场机会。各行各业都应该思考,什么样的应用是真正的大模型应用,找到“大模型原生”的产品形态是关键。

有道是一家教育科技公司。大家用我们的词典、翻译、云笔记,开创了词典笔硬件品类,一直是第一,也有一批收入较高的素养启蒙课程产品,国内成人在线教育两个最大平台,云课堂,也有和高教社合作MOOC,近些年来在智慧教育方面也有一些受欢迎的产品。2019年在纽交所上市,我们一直在北京,是地道的海淀企业,连续三年荣登“北京民营企业百强”、“北京民营企业科技创新百强”和“北京民营企业社会责任百强”三项榜单。

在这里插入图片描述

去年初的时候,我们发布大模型和我们业务关系很大,需要有一个大模型的战略,什么都不做,业务是要被颠覆的。

所以我们问自己两个问题:

  • 第一个问题:是做模型还是做应用。我们的答案是我们要做应用,但是因为去年年初没有模型,所以我们不得不来自己训一个模型出来用。今天时间比较短,为什么是要做应用,我就不讲了。

  • 第二个问题,2B还是2C,那我的看法是大模型这个产业,2B和2C都有很不错的前景的,那网易的基因,有道的基因的话,肯定2C更合适。

在这里插入图片描述

有道的大模型叫子曰,夫子教人,各应其材,孔子是因材施教的鼻祖嘛。有道的模型在数据、架构、系统能力方面,都有一些我们的特点,时间有限,我也不讲了。11月份子曰也通过了网信办双新评估。下面讲下应用。

我们说了我们做模型目的是为了快速做应用,所以23年,我们做了两个大型的独立应用,Hi Echo和小P老师,以及六个结合到我们产品中的功能,大模型翻译、AIBox文字助手、文档问答、有道速读、作文批改、语法精讲。

这两个大的应用值得讲一讲,Hi Echo和小P老师。

我们做了十几年时间英语学习产品,一直有的观察,是很多国人英语口语不好原因很简单,就是缺乏口语练习的一个环境。英语它其实不是一个需要上课学科,而是一个需要习得的技术。我们发现大模型非常适合提供高质量的语言环境,所以Hi Echo是全球首个大模型虚拟人口语私教。

它有五大特点:1v1引导对话、海量场景、能力匹配分级、多种形象、个性化报告,能够给练习者提供随时随地的练习环境,真正替代了以前要花几千几万的外教老师。

基本的功能,非常欢迎大家在应用商店下载Hi Echo试用,我给大家展示一个我们将要推出的新功能:是中英文混合教学的功能。我觉得还是很意思的,大家看一下。

AI家庭老师。这是一个比教语言更难的问题,因为要设计到数学这样的困难的学科。

小P老师要解决的是家长们一直以来的痛点:没有时间和能力辅导孩子学习,要么对题目了解不深,自己先被难倒了;要么不知道如何跟孩子解释,讲清楚就已经很不容易了,更别说要融会贯通、举一反三。

小P老师是首个能实现全科答疑的AI家庭教师,我们利用大模型+RAG+CAS解决了全科答疑的难题。在意图理解、推理能力、自然语言交流等核心技术上取得了突破,提供了因材施教的实现路径。

目前搭载在了我们的AI学习机X20上,收获了不错的效果,首发单场直播销售额突破260万。

教育和医疗,都是我们投入大量社会资源 ,因为人力不足,而无法提供最高质量服务的领域。

我们看到了大模型带来了三个关键机会:

  • 首先,个性化分析和指导。大模型具有强大的语言理解和生成能力,可以深入分析学生的学习状况,针对每个学生的特点,进行定制化的反馈,这在大模型出现前是没法实现的。
  • 其次,引导式学习。大模型可以模仿人类教师的方式,提出问题并引导学生自己去探索答案。这种方法很像古希腊哲学家苏格拉底的教学方式,不是直接给答案。而是通过提问,快速找到学生的知识漏洞,在引导问答的过程中,帮助他们自主解决问题,不但学会了知识,还培养了自主学习能力和批判性思维,一举多得。
  • 最后,全学科知识整合。大模型具有跨学科知识理解和整合的能力,可以随时为学生提供全科甚至是跨学科的答疑支持。

基于这样的观察,所以我们很迅速的落地了Hi Echo和小P老师这样的应用。

我讲了第二部分内容,就是为了促进中国的大模型产业的发展,我们从业者应该积极推动开源生态的建设。

开源是个好东西,但不是每一个技术都适合开源,很多很专门的、很复杂同时场景很精准的技术,不一定适合开源。

但大模型有两个特点,使得很适合开源:

  1. 具有非常强的通用性,所以可以类比OS、数据库、编译器。通用性的基础技术是合适开源的,因为一个人、一个公司干的活,能惠及很多人很多公司,这个时候开源推动技术流通的优势便发挥出来了。

  2. 部署方便。一次训练,到处运行。也使得大模型合适开源。

我干过很多年搜索,虽然也是基础技术,但大规模的搜索技术不太合适开源。

对比大模型,看起来有一些复杂,但因为Transformer其实并不复杂,所以一个模型其实就是几百几千行代码,再加几个很大的数据文件。所以部署起来其实非常简单。这样的技术,又对大家都有用,其实想要保密是很难的,所以开源变成的必然的结果。

那么,网易呢目前暂时还没有开源我们的模型。但是我们已经开源了一些相关的系统,希望为行业来做一些贡献,第一个呢是RAG的系统。

这里我讲有道的两个开源案例:

  • 一个是我们近期刚刚开源的模型QAnything,有道自研的RAG引擎,结合了用户私有数据和大模型的优势。

  • 除了可以调用云端大模型服务,还支持纯本地部署,大家可免费在开源社区Github内进行下载,一键部署即可使用!

在这里插入图片描述

用户的任何内容,以任意的形式存在,比如各种格式的文档,音频,数据库等,都可以在QAnything的支持下,变成可以针对其内容进行问答的使用方式,通过这个技术框架用户可以很方便地搭建自己的智能知识助手。以日常的文件处理为例,QAnything会理解用户的意图,在全库中寻找相关的内容,理解、提取用户关心的要点,并加以总结后呈现给用户。

本次开源的QAnything是个完整的RAG系统,包括专门优化的自研的embedding/rerank,微调后的LLM,优化后的推理代码,向量数据库,以及一个立即上手可用的前端。

在这里插入图片描述

  • 支持无上限的文档数量,问答速度很快。

  • 准确率有非常明显的优势,简单易用。

我们的QAnything可以应用在多元化的场景中,目前已经积累了很多不错的应用案例。

包括我们在文档问答、智能客服的产品中已经全面应用了QAnything。

  • 有道纵横棋院等之类的内部业务,有很多资料文档,当家长问我们的销售的时候,很多问题销售不能立刻解答,通过QAnything,就可以辅助销售找到答案,大大提高效率。
  • 有道升学中心有个业务是选科咨询和志愿填报。家长和学生对自己的求学规划,高校的学科分布,分数线,招生政策等等有很多问题。
  • 我们通过优化,将Qanything和数据库结合起来,准确率95%以上,大部分时候能够直接回答学生以及家长的问题。

外部客户比如新华社的项目也在进行中,包括资料查找问答、以及摘要、润色、分类等基于内部物料的生成,反馈也很好。
在这里插入图片描述

另外一个,EmotiVoice,中文易魔声,是有道AI团队自研的TTS引擎。

我们看到说,基于GAN等现代AI技术的语音能力越来越成熟,实现一个质量较高的TTS系统的门槛越来越低。即便如此,中英双语的高质量、现代TTS模块还是不容易找到,要在自己的应用与内容中加入高逼真度且高度可控的语音,特别是中英双语的语音,依然比较麻烦。这也是我们将这个项目开源的初衷,希望能帮助有需求的开发者与内容创作者,并扩大高质量TTS的应用范围。

EmotiVoice目前支持中英文双语,包含2000多种不同的音色,还有特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

我们来听一下基于我刚刚这段介绍合成的声音,对于不同的情绪它在表达上是有差异化的。

去年11月我们对外开源了EmotiVoice, 用户可免费在开源社区GitHub进行下载使用。截止目前我们已经有近6000stars,推出首周登上github trending榜。

我们的用户不仅仅是教育行业人群,还包括做智能硬件、有声书软件、2B、虚拟人、大模型交互等等,可使用的场景非常丰富,大家可以扫二维码体验下,期待大家在开源网站给予我们更多反馈。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/846631
推荐阅读
相关标签
  

闽ICP备14008679号