小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

集简云新增“AI图像生成与识别”功能：实现智能图像识别与理解场景

作者：小丑西瓜9 | 2024-04-30 03:13:01

踩

自OpenAI发布GPT-4V以来，也掀起了各大企业对于多模态大模型的研究热潮。和以往的生图模型相比，多模态模型已突破文本限制，图像理解和识别能力尤为突出。

本周，集简云上线AI图像识别与问答功能，集成OpenAI和Anthropic两大服务商的GPT-4V和Claude 3模型，可对输入的图像进行深入的识别和理解，进而提供详尽的问答服务。

模型介绍

GPT-4V

GPT-4V（GPT-4 Turbo with Vision）是OpenAI最受瞩目的带有视觉能力的模型，它使得用户可以通过图像与GPT-4进行交互，标志着GPT-4正式成为一个多模态模型，具备对于图像的理解能。

Claude 3

Claude 3 擅长复杂视觉功能，Opus和Sonnet版本均可以处理各种视觉格式，包括照片、图表、图形和技术图表等，推理能力更强，回复的解题水平和准确率更高，在一些细节描述上比GPT-4更胜一筹。

使用示例

GPT-4V

示例1：可以通过截图向GPT4 V模型提问：

汽车的这个指示灯亮了，我该怎么办？

（上滑查看）

这个指示灯是发动机故障警告灯，通常被称为“Check Engine”或“Service Engine Soon”灯。当这个灯亮起时，表示你的车辆检测到了发动机或排放控制系统中的一个问题。以下是一些你可以采取的步骤：

不要恐慌。这个指示灯可能表示多种问题，从轻微到严重不等。

检查油箱盖是否已经正确地拧紧。一个松动的油箱盖可以触发这个警告灯。

注意车辆的表现。如果你注意到任何不寻常的行为，比如发动机失去动力、怠速不稳或有奇怪的噪音，请尽快将车辆停靠在安全的地方。

尽快检查。虽然有时车辆可能仍然可以正常行驶，但最好尽快将车辆带到专业的汽车维修店进行诊断。继续行驶可能会导致更严重的损坏。

使用OBD-II（车载诊断系统）阅读器获取故障代码。许多汽车配件店提供免费的故障代码读取服务，或者你可以购买或借用一个阅读器来自己获取代码。

决定是否继续行驶之前，请考虑到你的安全和车辆的状况。如果不确定如何处理，请咨询专业的汽车技师。

示例2：根据网站截图生成类似的网站代码：截图网易音乐的首页，然后在语聚AI的“对话助手”中选择GPT4 Vision模型并要求其生成一个类似网站的代码

Claude 3

示例1：

这张示意图是什么意思？有哪些专业名词？请详细解释

（上滑查看）

这张图是关于基于LoRa无线网络的车位状态监测系统架构图,其中涉及到以下一些专业名词:

LoRa(Long Range): 一种低功耗广域网络(LPWAN)技术,适用于远距离、低速率、低功耗的物联网应用。

Web发布服务器: 用于发布和管理车位状态监测系统的Web应用服务器。

应用服务器: 接收并处理来自LoRa网关的车位状态数据,并将数据传输给Web发布服务器。

2G/3G/4G运营商网络: 移动通信网络,用于LoRa网关与应用服务器之间的数据传输。

LoRa网关: 将多个LoRa设备(即车位探测器)采集的数据汇聚,并通过2G/3G/4G网络将数据传输至应用服务器。

中口线: 一种无线通信中的概念,表示LoRa设备与LoRa网关之间的无线连接。

LoRa设备/车位探测器: 安装在每个车位上,通过LoRa无线技术实时监测车位状态(占用或空闲)并将数据传输至LoRa网关。

整个系统的工作流程如下:

LoRa车位探测器采集车位状态数据

探测器通过LoRa无线技术将数据传输至LoRa网关

网关通过2G/3G/4G网络将汇聚的数据传输至应用服务器

应用服务器处理数据后传输给Web发布服务器

用户通过Web发布服务器提供的应用程序查询车位状态信息

示例2：请把这个UI用代码还原出来

动图封面

如何使用

1 在集简云流程中作为步骤节点使用

将“AI图像生成与识别”添加到您的业务流程中，作为步骤节点使用，实现自动通过提问内容识别图像信息自动化流程，满足自定义场景需求。

2 在语聚AI应用助手中作为工具使用

您可以在应用助手中，将AI图像生成与识别作为一个应用工具使用，在对话时，应用助手将自动在需要的使用调用此工具完成指定任务。

例如：帮我查询图片中的相关信息，并将数据整理成表格。

3 集简云数据表中作为“集成字段” 使用

您可以在集简云的数据表中，添加一个按钮，当点击此按钮时，自动执行AI图像生成与识别，表格中的各个字段均可作为图像识别的输入参数使用，通过按钮，即可实现在数据表内一键将查询到的数据发送给相关人员。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】