GLM-4开源，多模态性能比肩GPT4V_glm-4 windows

作者：Cpp五条 | 2024-06-14 05:04:36

踩

glm-4 windows

GLM-4开源，多模态性能比肩GPT4V

前几天，智谱AI发布了他们的最新力作——GLM-4-9B，这是GLM-4系列的开源旗舰，以其卓越的性能在多个维度超越了Llama-3-8B。

图片

GLM-4-9B-Chat，这款人类偏好对齐的版本，不仅精通多轮对话，还具备网页浏览、代码执行、自定义工具调用以及长文本推理等高级功能，支持最大128K的上下文处理能力。此次更新还扩展了多语言支持，覆盖包括日语、韩语、德语在内的26种语言，同时推出了支持1M上下文长度的GLM-4-9B-Chat-1M模型，以及基于GLM-4-9B的多模态模型GLM-4V-9B，后者在1120*1120高分辨率下展现了中英双语多轮对话的非凡能力，在多模态评测中超越了业界标杆。

图片

使用GLM-4 Demo的三种模式

GLM-4 Demo提供了三种模式，以满足不同场景下的需求：

All Tools: 具备完整工具调用能力的对话模式，原生支持网页浏览、代码执行、图片生成，并允许自定义工具扩展。
文档解读: 支持上传文档，利用GLM-4-9B的长文本处理能力进行深入理解。
多模态: 利用GLM-4V的多模态理解能力，上传图像进行深入分析和对话。

All Tools模式

本模式继承了ChatGLM3-6B的工具注册流程，代码、绘图、联网能力已自动集成，用户仅需配置相应的Key即可启用。在对话模式中，用户可以在侧边栏调整top_p、temperature等参数，以微调模型行为。模型将自主决定何时调用工具，且默认隐藏工具调用结果，但用户可随时展开查看。

工具调用示例

模型不仅能进行网页搜索和Python代码执行，还能连续调用多个工具，如通过浏览器工具搜索获取数据后，调用Python工具执行Matplotlib绘图。

绘图示例

如果提供了智谱开放平台API Key，模型还能调用CogView进行图像生成。

图像生成示例

自定义工具

用户可以通过在tool_registry.py中注册新的工具来扩展模型的能力。使用@register_tool装饰器即可轻松注册。工具声明中，函数名称代表工具名，docstring为工具说明，参数使用Annotated标注类型、描述和是否必须。


@register_tool
def get_weather(city_name: Annotated[str, '城市名称', True]) -> str:
    """
    获取`city_name`未来一周的天气情况
    """
    ...

自定义工具注册示例

文档解读模式

用户可以上传多种格式的文档，如pptx、docx、pdf等，利用GLM-4-9B的长文本处理能力进行深入理解。请注意，本模式不支持工具调用和系统提示词，且长文本可能需要较高的显存。

文档解读示例

多模态模式

在多模态模式下，用户可以上传图像，利用GLM-4V的多模态理解能力进行深入分析和对话。请注意，本模式必须使用glm-4v-9b模型，不支持工具调用和系统提示词。模型一次只能理解一张图片，如需更换图片，需开启新的对话，且图像分辨率需为1120 x 1120。

多模态模式示例

通过这些模式，GLM-4-9B为用户提供了一个强大、灵活且易于使用的AI平台，无论是学术研究还是商业应用，都能发挥其巨大的潜力。

整合包使用

学术Fun将上述工具制作成一键启动包，点击即可使用，避免大家配置环境出现各种问题，下载地址（电脑浏览器访问）： GLM-4开源，多模态性能比肩GPT4V_学术FUN，在此页面右侧区域点击下载！

注意电脑配置如下：

windows 10/11 64位操作系统
8G显存以上英伟达显卡

下载使用教程

下载压缩包下载地址（电脑浏览器访问）： GLM-4开源，多模态性能比肩GPT4V_学术FUN，在此页面右侧区域点击下载！
解压，最好不要有中文路径，解压后，如下图所示，双击启动.exe文件运行

图片

即可在浏览器使用啦

各位新老朋友，麻烦点个赞声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】