赞
踩
原创 芝士AI吃鱼 芝士AI吃鱼 2024-06-24 10:50 山东
芝士AI吃鱼
心宜善,言宜慢
182篇原创内容
公众号
在当今人工智能快速发展的时代,大型语言模型(LLMs)已成为构建先进NLP系统的核心。然而,如何有效地设计和优化基于LLM的应用pipeline一直是一个棘手的问题。传统方法主要依赖于预定义的提示词模板,这种方式不仅缺乏系统性,而且难以扩展和优化。今天,我们将深入探讨一个创新的解决方案 —— DSPy框架,它有望彻底改变我们构建和优化LLM应用的方式。
DSPy的核心理念是将LLM pipeline抽象为文本转换图(text transformation graphs)。这种方法受到深度学习框架(如PyTorch、Theano和Chainer)的启发,旨在为基础模型编程提供一个坚实的概念框架和强大的编程抽象。
DSPy引入了三个关键概念:
签名(Signature):抽象化模块的输入/输出行为
模块(Module):替代现有的手动提示技术,可在任意pipeline中组合
提词器(Teleprompter):优化pipeline中的所有模块以最大化特定指标
通过这些抽象,DSPy将LLM应用的开发从操作自由格式字符串转变为一种更加结构化和可优化的编程任务。让我们详细探讨这些核心概念。
签名是DSPy中最基础的抽象,它用自然语言描述了一个模块应该完成的任务。与自由格式的字符串提示不同,DSPy签名是函数的自然语言类型声明。例如:
问答:"question -> answer"
检索增强型问答:"context, question -> answer"
带推理的多项选择题回答:"question, choices -> reasoning, selection"
签名相比传统提示有两个主要优势:
可编译性:它们可以被编译成自我改进且适应pipeline的提示或微调指令。
结构化处理:它们处理结构化格式和解析逻辑,减少了用户程序中脆弱的字符串操作。
DSPy模块是对常见提示技术的抽象。核心模块是Predict
,它存储了提供的签名、一个可选的LM(默认为None),以及用于提示的示例列表(初始为空)。
除Predict
外,DSPy还包含了许多更复杂的模块,如:
ChainOfThought
ProgramOfThought
MultiChainComparison
ReAct
这些模块都可以互换使用来实现DSPy签名。例如,将Predict
替换为ChainOfThought
,就可以得到一个在提交输出前逐步思考的系统。
模块的一个关键特性是参数化。这意味着它们可以通过创建和收集示例来学习如何应用提示、微调、增强和推理技术的组合。这种参数化为系统地教导LM复杂的pipeline新行为提供了强大的方法。
提词器是DSPy的优化器,它接收程序、训练集和度量标准,并返回一个新的优化程序。不同的提词器会采用不同的优化策略。
典型的提词器包含三个阶段:
候选生成:为每个唯一的预测模块生成参数候选值,包括指令、字段描述或示例。
参数优化:使用超参数调优算法(如随机搜索、HyperOpt、Optuna等)选择最优参数组合。
高阶程序优化:修改程序的控制流,如集成多个模型预测。
值得注意的是,DSPy的训练集可能很小,甚至只有少量示例。这种标签效率对于模块化至关重要:在DSPy中构建一个新的pipeline只需要重新编译新pipeline的代码,而不需要为新pipeline注释特定的数据。
DSPy编译器是框架的核心组件,它能够自动优化任何DSPy程序以提高质量或降低成本。编译过程主要依赖于提词器,下面是一些常用的编译策略:
LabeledFewShot
:从训练集中随机采样k个示例用于few-shot学习。
BootstrapFewShot
:通过随机搜索来引导少样本示例,优化示范选择过程以自我改进程序的模块。
嵌套引导:使用优化后的引导程序来进一步引导另一个程序,特别适用于原始零样本程序表现较差的情况。
编译通常在几分钟到几十分钟内完成,因为即使是成本较高的设置也只需要运行程序几千次,并且可以并行进行。
为了展示DSPy的强大功能,我们来看一个具体案例 —— 在GSM8K数据集(小学数学问题集)上的应用。
我们考虑了三个DSPy程序:
单步Predict
模块(vanilla)
两步ChainOfThought
模块(CoT)
多阶段ComparerOfThoughts
模块(ThoughtReflection)
实验设置:
训练集:200个问答对
开发集:300个问答对
测试集:官方1.3k测试集示例
评估指标:LM输出中最终数值的准确性
实验结果:
Vanilla程序:
零样本和简单few-shot设置下,GPT-3.5和llama2-13b-chat表现不佳。
通过引导编译和迭代(bootstrap×2),性能得到显著提升。
CoT程序:
使用专家人类推理链时效果最佳。
然而,通过引导编译,可以匹配或超越人类推理链的效果,证明DSPy可以减少手工制作提示的需要。
ThoughtReflection程序:
虽然只比其他程序多几行代码,但效果最佳。
通过从LM中采样五个推理链并并行比较,生成考虑多次尝试模式的新答案。
总体而言,通过组合2-4个DSPy模块和提示器,我们将不同LM在这一任务上的准确率从4-20%提升到49-88%。这充分展示了DSPy范式的强大之处。
模块化:DSPy将复杂的提示技术转化为可重用的模块,大大简化了pipeline的设计和优化。
自动优化:通过提词器和编译器,DSPy能够自动优化pipeline中的每个模块,减少了手动调整的需求。
灵活性:DSPy支持各种LM和任务,可以轻松适应不同的应用场景。
效率:即使使用较小的LM和有限的训练数据,DSPy也能实现出色的性能。
可解释性:DSPy程序的结构化特性使得系统的行为更容易理解和调试。
DSPy为AI系统设计开辟了一个全新的范式。它不仅简化了开发流程,还为探索更复杂、更高效的AI系统提供了可能。未来,我们可以期待:
更多高级模块和优化策略的开发,进一步扩展DSPy的能力。
与其他AI技术(如强化学习、神经符号系统)的结合,创造更智能的hybrid系统。
在更广泛的领域和任务中的应用,如对话系统、自动编程、多模态学习等。
DSPy的出现标志着LLM应用开发进入了一个新的时代。通过将复杂的提示工程转化为模块化编程,DSPy不仅简化了开发流程,还显著提高了系统性能。它为我们提供了一种更系统、更可靠的方式来利用LLM的力量,有望在未来彻底改变AI系统的设计和实现方式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。