当前位置:   article > 正文

Win10上运行本地大模型_metallama读取safetensors文件

metallama读取safetensors文件

说一下电脑配置是4090的显卡,cuda为12.2,显存24G,内存64G,可以实现模型的部署~
首先下载ollama框架,下载链接官方网站https://ollama.com/,国内在下载github时往往会下载过慢,也可以从此链接中ollama的win版本下载。
1.下载按照提示的步骤安装即可,安装成功后右下角会有一个羊驼的标志
在这里插入图片描述
2.之后打开CMD窗口,检查ollama是否安装成功,输入以下命令如果出现类似提示,则显示安装成功。
在这里插入图片描述
3.在ollamav.1.39版本之后能够实现直接将模型量化,如Safetensors等格式可以用于ollama模型加载,转换模型过程十分简单。
从Hugging Face 下载一个带Safetensors 文件格式的模型,可以自行选择。用cd 切换到当前目录,如下所示
在这里插入图片描述
在当前文件夹下编写Modelfile文件,也就是在Meta-Llama-3-8B-Instruct文件夹下创建Modelfile文件
在这里插入图片描述
文件代码

FROM .

TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""

PARAMETER stop <|start_header_id|>
PARAMETER stop <|end_header_id|>
PARAMETER stop <|eot_id|>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

4.在cmd中输入模型量化命令

ollama create --quantize Q4_K_M -f Modelfile Meta-Llama-3-8B-chat-Q4_K_M
  • 1

完事之后耐心等待,之后成为下图
在这里插入图片描述
5.最后运行模型,输入命令

ollama run Meta-Llama-3-8B-chat-Q4_K_M:latest
  • 1

如下图所示
在这里插入图片描述

最后开启你的大模型学习之旅吧~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/999535
推荐阅读
相关标签
  

闽ICP备14008679号