当前位置:   article > 正文

GLM-4开源,多模态性能比肩GPT4V_glm-4 windows

glm-4 windows

GLM-4开源,多模态性能比肩GPT4V

前几天,智谱AI发布了他们的最新力作——GLM-4-9B,这是GLM-4系列的开源旗舰,以其卓越的性能在多个维度超越了Llama-3-8B。

图片

图片

GLM-4-9B-Chat,这款人类偏好对齐的版本,不仅精通多轮对话,还具备网页浏览、代码执行、自定义工具调用以及长文本推理等高级功能,支持最大128K的上下文处理能力。此次更新还扩展了多语言支持,覆盖包括日语、韩语、德语在内的26种语言,同时推出了支持1M上下文长度的GLM-4-9B-Chat-1M模型,以及基于GLM-4-9B的多模态模型GLM-4V-9B,后者在1120*1120高分辨率下展现了中英双语多轮对话的非凡能力,在多模态评测中超越了业界标杆。

图片

图片

使用GLM-4 Demo的三种模式

GLM-4 Demo提供了三种模式,以满足不同场景下的需求:

  • All Tools: 具备完整工具调用能力的对话模式,原生支持网页浏览、代码执行、图片生成,并允许自定义工具扩展。

  • 文档解读: 支持上传文档,利用GLM-4-9B的长文本处理能力进行深入理解。

  • 多模态: 利用GLM-4V的多模态理解能力,上传图像进行深入分析和对话。

All Tools模式

本模式继承了ChatGLM3-6B的工具注册流程,代码、绘图、联网能力已自动集成,用户仅需配置相应的Key即可启用。在对话模式中,用户可以在侧边栏调整top_p、temperature等参数,以微调模型行为。模型将自主决定何时调用工具,且默认隐藏工具调用结果,但用户可随时展开查看。

工具调用示例

工具调用示例

模型不仅能进行网页搜索和Python代码执行,还能连续调用多个工具,如通过浏览器工具搜索获取数据后,调用Python工具执行Matplotlib绘图。

绘图示例

绘图示例

如果提供了智谱开放平台API Key,模型还能调用CogView进行图像生成。

图像生成示例

图像生成示例

自定义工具

用户可以通过在tool_registry.py中注册新的工具来扩展模型的能力。使用@register_tool装饰器即可轻松注册。工具声明中,函数名称代表工具名,docstring为工具说明,参数使用Annotated标注类型、描述和是否必须。

  1. @register_tool
  2. def get_weather(city_name: Annotated[str, '城市名称', True]) -> str:
  3.     """
  4.     获取`city_name`未来一周的天气情况
  5.     """
  6.     ...

自定义工具注册示例

自定义工具注册示例

文档解读模式

用户可以上传多种格式的文档,如pptx、docx、pdf等,利用GLM-4-9B的长文本处理能力进行深入理解。请注意,本模式不支持工具调用和系统提示词,且长文本可能需要较高的显存。

文档解读示例

文档解读示例

多模态模式

在多模态模式下,用户可以上传图像,利用GLM-4V的多模态理解能力进行深入分析和对话。请注意,本模式必须使用glm-4v-9b模型,不支持工具调用和系统提示词。模型一次只能理解一张图片,如需更换图片,需开启新的对话,且图像分辨率需为1120 x 1120。

多模态模式示例

多模态模式示例

通过这些模式,GLM-4-9B为用户提供了一个强大、灵活且易于使用的AI平台,无论是学术研究还是商业应用,都能发挥其巨大的潜力。

整合包使用

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置环境出现各种问题,下载地址(电脑浏览器访问): GLM-4开源,多模态性能比肩GPT4V_学术FUN在此页面右侧区域点击下载!

注意电脑配置如下

  • windows 10/11 64位操作系统

  • 8G显存以上英伟达显卡

下载使用教程

  • 下载压缩包 下载地址(电脑浏览器访问): GLM-4开源,多模态性能比肩GPT4V_学术FUN在此页面右侧区域点击下载!

  • 解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行

图片

图片

  • 即可在浏览器使用啦

各位新老朋友,麻烦点个赞 本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签