面壁发布端侧视觉理解模型 MiniCPM-V 2.6；ChatGPT 人形机器人二代正式发布丨 RTE 开发者日报_minicpm-v 2.6部署

作者：木道寻08 | 2024-08-17 10:06:43

踩

minicpm-v 2.6部署

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@鲍勃

01 有话题的新闻

1、面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V

面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V。据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而类比知识密度来看，得益于视觉 token 相比上一代下降 30% ，比同类模型低 75%，MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度（token density）。

值得一提的是，面壁还将「实时」视频理解、多图联合理解、多图 ICL 等能力首次搬上了端侧。

量化后端侧内存仅占 6 GB，端侧推理速度达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理，且支持多种语言。（@AI 科技评论）

2、人形机器人公司 Figure AI 宣布推出全新一代 Figure 02

当地时间 8 月 6 日，Figure AI 公布了全新 Figure 02 视频，主要展示了其在宝马生产线上进行测试的场景。

根据视频展示，功能层面，Figure 02 在语音对语音方面，通过麦克风、扬声器和定制的 AI 模型，可以与人类进行对话；摄像头则由 6 个板载 RGB 摄像头驱动的 AI 视觉系统；采用第四代手部，具有 16 个自由度和相当于人类的力量；视觉语言模型（VLM）使机器人摄像头能够进行快速的常识性视觉推理；电池层面，Figure 02 配备了 2.25 千瓦时的电池，使运行时间增加 50%；CPU/GPU 的计算和 AI 推理能力是上一代的 3 倍。

Figure AI 成立于 2022 年，2023 年推出了首款产品 Figure 01，今年 2 月，它获得一众科技巨头和大佬的投资，包括 OpenAI、微软、英伟达、贝佐斯等联合约 6.75 亿美元融资，估值 26 亿美元。（@钛媒体）

3、阿里通义 App 推出「角色扮演」功能

在这里插入图片描述

8 月 6 日消息，通义 App 推出角色扮演功能，可一键替换视频人物。上传一段视频，选择要替换的 3D 角色，可以在不改变其他场景和人物的情况下，将视频里原有的角色一键变身为有趣的 3D 角色模型，实现让孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。

该功能基于 Motionshop 模型打造。今年年初，阿里通义实验室推出 Motionshop 模型。目前，Motionshop 上线通义 App，开放给所有用户免费使用。（ @鞭牛士）

4、MathGPTPro：数学问题 AI 解决工具提供实时互动学习体验

在这里插入图片描述

MathGPTPro 是一个先进的 AI 数学问题解决工具，提供实时互动学习体验。用户可以提问或者上传数学问题图片，MathGPTPro 会立即提供详细的解决方案。

MathGPT 已被全球 200 多个国家的 40 万名学生使用，MathGPT 称其测试版模型在高中和初中数学问题上的准确率比 GPT-4 高 20%。数学推理方面比 GPT-4o 高 15%。（@小互 AI）

5、OpenAI 在 API 中引入结构化输出，最新版 GPT-4o AI 模型达到 100% 满分

OpenAI 公司昨日发布新闻稿，宣布在 API 中引入结构化输出（Structured Outputs）。

OpenAI 公司此前已提供结构化输出，用户可以指定"response_format": {“type”: “json_object”}} 来请求一个有效的 JSON 对象，也可以使用函数调用机制来请求符合特定模式的响应。

OpenAI 在导言中表示，结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式，因此用户无需担心模型会遗漏必填键或生成无效的枚举值。

6、LlamaCoder：简单提示轻松创建小程序代码

LlamaCoder 是一个基于 Llama3.1405B 模型的平台，它通过强大的自动化能力，使得开发者只需提供简单的指令，就能快速生成完整的 React 应用程序和组件。该平台采用了现代化的技术栈，包括 Next.js 和 Tailwind 等流行技术，提供了一个既美观又易用的界面。

LlamaCoder 的功能设计考虑了全面，包括代码沙箱、Helicone 集成和 Plausible 工具的使用，以提高开发效率和产品优化。入门门槛低，用户只需克隆代码库并设置 API 密钥，即可通过 npm 命令启动项目。目前已开源。（@AI 科技评论）

02 有态度的观点

1、雷军：跟苹果华为的对比，推动了小米的进步

雷军与李翔发布的 206 分钟深度访谈中，雷军表示，自己最倒霉的地方就是老跟华为苹果比。相关话题昨日也登上了微博热搜。

访谈中雷军提到，「我倒霉的地方就是老跟苹果华为比，要比这两个大哥惊艳。有人问我为什么不能比苹果好，我说小米四百亿，他们三万亿，哪怕你给我一万亿美金我就能比他们惊艳」。

不过他也表示，苹果的厉害，华为的厉害，挡不住小米的光芒，跟苹果华为比的结果，还是推动了小米的进步。（@爱范儿）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】