【AI+大模型】从媲美GPT4能力的国产DeepSeek-V2浅聊MOE模型_deepseek-v2-chat

作者：你好赵伟 | 2024-06-10 13:45:03

踩

deepseek-v2-chat

5月6日，私募巨头幻方量化官微宣布，其探索AGI（通用人工智能）的新组织“深度求索（DeepSeek）”正式开源。

媲美GPT4能力

在目前大模型主流榜单中，DeepSeek-V2均表现出色:

模型权重：

https://huggingface.co/deepseek-ai

https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech-report.pdf

自己注册账号试了下 https://chat.deepseek.com/ , 问题回答确实很快。可能训练的知识不够新，一些回答没得到自己想要的答案。感觉最新知识获取赶不上平时用得多的智谱清言或kimichat 。注: 国内特色功能，感觉chatGPT4的回答也赶不上国内的几款主流大模型。

写了这么多，其实我最关注的是DeepSeek 是国内首个开源的MOE模型。这里，我浅谈下大模型的研究新方向：混合专家模型（MoE）。据说GPT-4是8个2200亿MoE模型。

MOE（Mixture of Experts）模型是一种机器学习的集成方法，旨在通过结合多个“专家”（即模型），对任务进行建模。其特点、优势和缺点如下：

总的来说，MOE模型提供了一种通过集成多个模型来解决问题的强大框架，尤其在任务十分复杂并且需要模型间分工合作的场景中表现出色。然而，这种模型也可能会增加设计和计算的复杂性，并且在理解模型行为方面存在一定挑战。

看完MOE模型的介绍，有没有感觉和平时的项目管理很像。遇到需要冲刺的复杂项目，把任务拆解多个子项目，对应任务经过项目经理拆解分配给该部分擅长的同学，通过具体分工，达到项目提前完成或按时完成的效果。虽然项目过程会存在资源冗余，协调困难的情况。但为了达到老板的上线要求，这不失为一个好的管理方式。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/699032