当前位置:   article > 正文

CPU 上的分布式 Llama 2 通过 llama.cpp 和 PySpark 使用 Python 对商品硬件进行批量推理的玩具示例。_python 调用llama2

python 调用llama2

为什么?

本练习是关于使用Llama 2 ( Meta AI的 LLM(大型语言模型))一次总结许多文档。非结构化、半结构化和结构化文本的可扩展摘要本身可以作为一项功能存在,也可以作为输入下游机器学习模型的数据管道的一部分。

具体来说,我们想证明以下同时存在的可行性:

CPU上运行 Llama 2 (即消除 GPU 容量限制)
LLM 与Apache Spark(大数据生态系统的关键部分)的顺利集成
不使用第三方端点(即,由于气隙基础设施或机密性要求,模型必须在本地运行)

如何?

我们已经做了很多艰苦的工作!

llama.cpp项目通过降低数值权重的分辨率(“量化” ),可以在 CPU 上运行简化的LLM。这些现成的模型文件很容易获得。

接下来,llama-cpp-python绑定提供了在 Python 中使用llama.cpp 的简单访问。

最后,Spark applyInPandas()(文档)能够将巨大的数据源分割成Pandas大小的块并独立处理它们。请注意,如果矢量化 Spark 函数可以实现相同的结果,则此方法可能是一种反模式,但在我们的示例中,我们基本上使用 Spark 作为简单的编排器来扩展llama.cpp的使用。在批处理中使用llama.cpp可能有更有效的方法,但考虑到 Spark 的容错性和可扩展性的简单性和自动优势,这种方法很有吸引力。

计划

作为一项有趣的测试,我们将使用 Llama 2 来总结列夫·托尔斯泰的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/128398?site
推荐阅读
相关标签
  

闽ICP备14008679号