当前位置:   article > 正文

GenAI---生成式AI的简介_gen ai

gen ai

什么是Foundation Models?

Foundation Models和我们以往传统的机器学习模型,也就是Traditional ML Models之间的区别。我们可以看到以往的机器学习模型,通常针对每一个不同的任务,我们需要一个单独的模型。这个过程之中我们还需要收集数据进行对应的训练。而Foundation Models通常一个模型就可以完成以前不同模型需要完成的多个任务,很多时候通过调整提示词就可以达到优化模型效果的作用。

文字方向

        公开可获得的模型:Llama、Falcom、Mystro

        闭源的:Anthropic旗下的Claude模型、Cohere旗下的Command模型

        模型兼顾多语种的能力: Misto AI兼顾西语和英语,同时有独特的Moe结构,也就是我们常说的Mixture OF Experts的结构,使得它在模型参数级相当的情况下推理速度更快

        百川模型,智谱旗下的Chad GLM模型

视觉方向

跟SD相关的插件,比如熟知的Web UI以及现在被大家广泛认可的Comfy UI

Comfy UI目前设计师门都在用,它可以以json的形式非常轻便的导出,便于各个部门之间去进行协作,它在进行部署时,也有非常轻便非常敏捷的优势

文字生成视频

        stable Video diffusion以及Animative这两者都可以做到,在不需要大型训练的情况下,将文字转成视频

        Heygen

文字生成3D

        通过Luma AI旗下的文字生成3D模型,结合自己的头显设备。

        Meshy

文字转声音,声音转文字。

声音的克隆

        比如我念一段文章,AI就可以学习我的声音去念更多的文章,这个我们叫声音克隆

speach to speach同声传译

        在说话的同时可以转成另外的语言。这个过程有两个难点:

第一个难点是:我的两种不同语言的对话翻译是一步到位的。

第二点是:我翻译之后的语音和我翻译之前的语音长度要保持一致。

达到这两点之后,我们将会对声音匹配视频产生更多的应用场景的联想。

Bark

github上找到GPT Sovitus Web UI

Meta旗下发布的Seamless M4T 模型

IIElevenLabs

Heygen

比如COG VLM

AI 智能体

常见AGI的流程:

        当一个任务传递给大模型之后,首先他会哦通过chain of salt的形式去拆解任务,并识别出第一步应该做什么。它会思考是否要进行网络上的搜索,或者调用配备好的知识库,还是通过之前已有的先验知识进行回答。

应用场景

        智能体与我们进行多模态的交流。通过json格式去训练微调模型,让模型学会不同的语言风格,比如温柔的,幽默的、讽刺的。

   

每次说一句话,好感度的提升或下降。适用于游戏剧情类

要拥有模型级服务,就是我们常说的MAS服务

还有就是增加长短期记忆的模块,多以向量数据库为实现的底座。

最后就是增加行动的能力,为大模型增加规划、反思和工具调用的接口。

优点是快速的进行自然语言查询,而不需要Seq编码

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/524690
推荐阅读
相关标签
  

闽ICP备14008679号