大语言模型：LLM的概念是个啥？_大型语言模型llm

作者：Gausst松鼠会 | 2024-06-04 18:36:24

踩

大型语言模型llm

一、说明

大语言模型（维基：LLM- large language model）是以大尺寸为特征的语言模型。它们的规模是由人工智能加速器实现的，人工智能加速器能够处理大量文本数据，这些数据大部分是从互联网上抓取的。 [1]所构建的人工神经网络可以包含数千万到数十亿的权重，并使用自监督学习和半监督学习进行（预）训练。 Transformer 架构有助于加快训练速度。[2]替代架构包括专家混合（MoE），它是由 Google 提出的，从 2017 年的稀疏门控架构开始，[3] 2021 年的 Gshard[4] 到 2022 年的 GLaM。

作为语言模型，它们的工作原理是获取

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/673013