重新定义大模型的学习方式：为什么算力和数据胜过代码？_学普通算法好还是大模型算法好

作者：运维做开发 | 2024-06-20 19:04:16

踩

学普通算法好还是大模型算法好

在快速发展的人工智能领域中，大模型已成为创新的基石。从智能对话到编程辅助系统，这些模型的潜力似乎无所不能。然而，在国内，无论是新手还是一些经验丰富的大模型转型者，普遍存在一个误解：认为掌握复杂的编码是有效利用这些强大工具的主要方式。这种观点是错误的。实际上，作为技术的跟随者而非创新者，国内在大模型技术的应用主要集中在对国外先进基座模型的预训练和微调上。在这个过程中，最重要的是拥有强大的计算力和全面高质量的数据集，而编码和微调操作实际上排在其后。

算力的重要性

在训练大模型的过程中，算力的作用至关重要。这些模型以其深度和复杂性而闻名，需要巨大的处理能力。缺乏足够的计算资源会导致训练一个大型模型异常缓慢，难以有效迭代或扩展。因此，高性能的GPU和分布式计算环境变得至关重要，它们提供了处理数百亿参数和操作的必需动力。

当前，国内许多人员对新出的美国大模型如Gemma和Llama3热衷微调，常从网上随便拿来数据进行训练，或者对手头的数据进行简单处理后就进行微调训练。然而，他们往往会遇到微调过程中程序报的许多bug，这种做法并没有在大模型技术上取得实质进展，而是大部分时间花在处理bug和修改代码上，这是不足取的。

数据的重要性

在AI模型的成功中，用于训练的数据同样至关重要。“垃圾进，垃圾出”这句话在大模型训练中尤为适用。数据的质量和多样性定义了模型学习和泛化到不同情景的能力。如果训练数据集狭窄或有偏见，模型在面对新的、多样的条件时表现会很差。

数据的重要性不仅在于数量，更在于质量和相关性。例如，如果模型旨在理解和生成类似人类的文本，训练数据就必须涵盖广泛的语言使用、文化细微差别和情境相关性。缺乏这样丰富的数据，即使最先进的算法也只能产生次优结果。因此，战略性地收集、清理和扩充数据比模型架构的复杂性更能决定AI项目的成败。

代码的次要角色

代码在大型模型部署过程中的角色虽然必需，但相对较为次要。现在许多高级框架，如Transformers等，已提供了大量预构建模块，简化了训练与微调的编码任务。这些工具使开发者能够用相对简单的脚本实现复杂的模型，将焦点从编码技巧转移到如何增强模型的能力和专注于垂直行业的大模型构建上。

尽管对于小公司和个人开发者来说，获取算力和数据资源是最大的挑战，但仅仅使微调代码运行和调试模型是远远不够的。我们应该将精力集中在如何扩增大模型的能力上，释放大模型的潜力，重点关注这些技术的应用。

总之就是，好多人在训练代码上折腾，把大量的精力耗费在解决各种开源代码的bug上，即使很熟练也就是一个调包侠，并不能构建起个人技能的护城河，对于公司也是如此，我们应该向美国AI看齐，比如学习他们如何实现长上下文增强的技术。

结论

认为编码复杂性是掌握大型模型的关键不仅误导人，也不利于AI的广泛采用和创新。随着该领域的进步，我们必须转向构建和访问更好的计算基础设施以及策划广泛多样的数据集。这些元素是成功AI应用的真正驱动力。了解这一点可以帮助我们更有效地重新定向努力和资源，确保从业者专注于AI领域中真正重要的事项。随着我们继续推动AI的边界，让我们不要被代码的复杂性所分散，而应由计算的力量和数据的潜力来引导我们。

重新定义大模型的学习方式：为什么算力和数据胜过代码？_学普通算法好 还是大模型算法好

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/740753

重新定义大模型的学习方式：为什么算力和数据胜过代码？_学普通算法好还是大模型算法好