赞
踩
幻觉:模型可能会生成虚假信息,与现实严重不符或脱节。
时效性:模型训练数据过时,无法反映最新趋势与信息。
可靠性:面对复杂任务时,可能频发错误输出现象。
1、可以感知环境中的动态条件 (perception of dynamic conditions in the environment)
2、能采取动作影响环境 (action to affect conditions in the environment)
3、能运用推理能力理解信息、解决问题、产生推断、决定动作 (reasoning to interpret perceptions, solve problems,draw inferences, and determine actions)
——Hayes-Roth 1995 An Architecture for Adaptive Intelligent Systems
1、大脑:作为控制器,承担记忆、思考和决策任务。接受来自感知模块的信息,并采取相应动作。
2、感知:对外部环境的多模态信息进行感知和处理。包括但不限于图像、音频、视频、传感器等。
3、动作:利用并执行工具以影响环境。工具可能包括文本的检索、调用相关 API、操控机械臂等。
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。
Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式,也支持了如下工具:
AgentLego 是一个提供了多种开源工具 API 的多模态工具包,旨在像是乐高积木一样,让用户可以快速简便地拓展自定义工具,从而组装出自己的智能体。通过 AgentLego 算法库,不仅可以直接使用多种工具,也可以利用这些工具,在相关智能体框架(如 Lagent,Transformers Agent 等)的帮助下,快速构建可以增强大语言模型能力的智能体。
AgentLego 目前提供了如下工具:
通用能力 | 语音相关 | 图像处理 | AIGC |
---|---|---|---|
计算器谷歌搜索 | 文本 -> 音频(TTS)音频 -> 文本(STT) | 描述输入图像识别文本(OCR)视觉问答(VQA)人体姿态估计人脸关键点检测图像边缘提取(Canny)深度图生成生成涂鸦(Scribble)检测全部目标检测给定目标SAM分割一切分割给定目标 | 文生图图像拓展删除给定对象替换给定对象根据指令修改ControlNet 系列根据边缘+描述生成根据深度图+描述生成根据姿态+描述生成根据涂鸦+描述生成ImageBind 系列音频生成图像热成像生成图像音频+图像生成图像音频+文本生成图像 |
经过上面的介绍,我们可以发现,Lagent 是一个智能体框架,而 AgentLego 与大模型智能体并不直接相关,而是作为工具包,在相关智能体的功能支持模块发挥作用。
两者之间的关系可以用下图来表示:
进入开发机后,为了方便使用,我们需要配置一个环境以同时满足 Lagent 和 AgentLego 运行时所需依赖。在开始配置环境前,我们先创建一个用于存放 Agent 相关文件的目录并配置conda环境,可以执行如下命令:
mkdir -p /root/agent
studio-conda -t agent -o pytorch-2.1.2
Lagent 和 AgentLego 都提供了两种安装方法,一种是通过 pip 直接进行安装,另一种则是从源码进行安装。为了方便使用 Lagent 的 Web Demo 以及 AgentLego 的 WebUI,我们选择直接从源码进行安装。
cd /root/agent
conda activate agent
git clone https://gitee.com/internlm/lagent.git
cd lagent && git checkout 581d9fb && pip install -e . && cd ..
git clone https://gitee.com/internlm/agentlego.git
cd agentlego && git checkout 7769e0d && pip install -e . && cd ..
安装其他将要用到的依赖库,如 LMDeploy,可以执行如下命令:
conda activate agent
pip install lmdeploy==0.3.0
由于后续的 Demo 需要用到 tutorial 已经写好的脚本,因此我们需要将 tutorial 通过 git clone 的方法准备好,以备后续使用:
cd /root/agent
git clone -b camp2 https://gitee.com/internlm/Tutorial.git
由于 Lagent 的 Web Demo 需要用到 LMDeploy 所启动的 api_server,因此我们首先按照指示在 vscode terminal 中执行如下代码使用 LMDeploy 启动一个 api_server。
conda activate agent
lmdeploy serve api_server /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b \
--server-name 127.0.0.1 \
--model-name internlm2-chat-7b \
--cache-max-entry-count 0.1
接下来我们按照下图指示新建一个 terminal 以启动 Lagent Web Demo。在新建的 terminal 中执行如下指令:
conda activate agent
cd /root/agent/lagent/examples
streamlit run internlm2_agent_web_demo.py --server.address 127.0.0.1 --server.port 7860
在等待 LMDeploy 的 api_server 与 Lagent Web Demo 完全启动后,在本地进行端口映射,将 LMDeploy api_server 的23333端口以及 Lagent Web Demo 的7860端口映射到本地。可以执行:
ssh -CNg -L 7860:127.0.0.1:7860 -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的 ssh 端口号
接下来在本地的浏览器页面中打开 http://localhost:7860 以使用 Lagent Web Demo。首先输入模型 IP 为 127.0.0.1:23333,在输入完成后按下回车键以确认。并选择插件为 ArxivSearch,以让模型获得在 arxiv 上搜索论文的能力。我们输入“请帮我搜索 InternLM2 Technical Report” 以让模型搜索书生·浦语2的技术报告。效果如下图所示,可以看到模型正确输出了 InternLM2 技术报告的相关信息。尽管还输出了其他论文,但这是由 arxiv 搜索 API 的相关行为导致的。
在本节中,我们将基于 Lagent 自定义一个工具。Lagent 中关于工具部分的介绍文档位于 https://lagent.readthedocs.io/zh-cn/latest/tutorials/action.html 。使用 Lagent 自定义工具主要分为以下几步:
下面我们将实现一个调用和风天气 API 的工具以完成实时天气查询的功能。首先通过 touch /root/agent/lagent/lagent/actions/weather.py
(大小写敏感)新建工具文件,该文件内容如下:
import json import os import requests from typing import Optional, Type from lagent.actions.base_action import BaseAction, tool_api from lagent.actions.parser import BaseParser, JsonParser from lagent.schema import ActionReturn, ActionStatusCode class WeatherQuery(BaseAction): """Weather plugin for querying weather information.""" def __init__(self, key: Optional[str] = None, description: Optional[dict] = None, parser: Type[BaseParser] = JsonParser, enable: bool = True) -> None: super().__init__(description, parser, enable) key = os.environ.get('WEATHER_API_KEY', key) if key is None: raise ValueError( 'Please set Weather API key either in the environment ' 'as WEATHER_API_KEY or pass it as `key`') self.key = key self.location_query_url = 'https://geoapi.qweather.com/v2/city/lookup' self.weather_query_url = 'https://devapi.qweather.com/v7/weather/now' @tool_api def run(self, query: str) -> ActionReturn: """一个天气查询API。可以根据城市名查询天气信息。 Args: query (:class:`str`): The city name to query. """ tool_return = ActionReturn(type=self.name) status_code, response = self._search(query) if status_code == -1: tool_return.errmsg = response tool_return.state = ActionStatusCode.HTTP_ERROR elif status_code == 200: parsed_res = self._parse_results(response) tool_return.result = [dict(type='text', content=str(parsed_res))] tool_return.state = ActionStatusCode.SUCCESS else: tool_return.errmsg = str(status_code) tool_return.state = ActionStatusCode.API_ERROR return tool_return def _parse_results(self, results: dict) -> str: """Parse the weather results from QWeather API. Args: results (dict): The weather content from QWeather API in json format. Returns: str: The parsed weather results. """ now = results['now'] data = [ f'数据观测时间: {now["obsTime"]}', f'温度: {now["temp"]}°C', f'体感温度: {now["feelsLike"]}°C', f'天气: {now["text"]}', f'风向: {now["windDir"]},角度为 {now["wind360"]}°', f'风力等级: {now["windScale"]},风速为 {now["windSpeed"]} km/h', f'相对湿度: {now["humidity"]}', f'当前小时累计降水量: {now["precip"]} mm', f'大气压强: {now["pressure"]} 百帕', f'能见度: {now["vis"]} km', ] return '\n'.join(data) def _search(self, query: str): # get city_code try: city_code_response = requests.get( self.location_query_url, params={'key': self.key, 'location': query} ) except Exception as e: return -1, str(e) if city_code_response.status_code != 200: return city_code_response.status_code, city_code_response.json() city_code_response = city_code_response.json() if len(city_code_response['location']) == 0: return -1, '未查询到城市' city_code = city_code_response['location'][0]['id'] # get weather try: weather_response = requests.get( self.weather_query_url, params={'key': self.key, 'location': city_code} ) except Exception as e: return -1, str(e) return weather_response.status_code, weather_response.json()
为了获得稳定的天气查询服务,我们首先要获取 API KEY。首先打开 https://dev.qweather.com/docs/api/ 后,点击右上角控制台。进入控制台后,点击左侧项目管理,然后点击右上角创建项目以创建新项目。输入相关项目名称,选择免费订阅,Web API 以及输入 key 的名称。接下来回到项目管理页面,查看我们刚刚创建的 key。我们在两个 terminal 中分别启动 LMDeploy 服务和 Tutorial 已经写好的用于这部分的 Web Demo。注意,确保上节中的 LMDeploy 服务以及 Web Demo 服务已经停止(即 terminal 已关闭),否则会出现 CUDA Out of Memory 或是端口已占用的情况!
conda activate agent
lmdeploy serve api_server /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b \
--server-name 127.0.0.1 \
--model-name internlm2-chat-7b \
--cache-max-entry-count 0.1
export WEATHER_API_KEY=在2.2节获取的API KEY
# 比如 export WEATHER_API_KEY=1234567890abcdef
conda activate agent
cd /root/agent/Tutorial/agent
streamlit run internlm2_weather_web_demo.py --server.address 127.0.0.1 --server.port 7860
并在本地执行如下操作以进行端口映射:
ssh -CNg -L 7860:127.0.0.1:7860 -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的 ssh 端口号
在介绍中我们提到过,AgentLego 算法库既可以直接使用,也可以作为智能体工具使用。下面将分别介绍这两种使用方式。我们将以目标检测工具为例。
首先下载 demo 文件:
cd /root/agent
wget http://download.openmmlab.com/agentlego/road.jpg
由于 AgentLego 在安装时并不会安装某个特定工具的依赖,因此我们接下来准备安装目标检测工具运行时所需依赖。AgentLego 所实现的目标检测工具是基于 mmdet (MMDetection) 算法库中的 RTMDet-Large 模型,因此我们首先安装 mim,然后通过 mim 工具来安装 mmdet。这一步所需时间可能会较长,请耐心等待。
conda activate agent
pip install openmim==0.3.9
mim install mmdet==3.3.0
然后通过 touch /root/agent/direct_use.py
(大小写敏感)的方式在 /root/agent 目录下新建 direct_use.py 以直接使用目标检测工具,direct_use.py 的代码如下:
import re import cv2 from agentlego.apis import load_tool # load tool tool = load_tool('ObjectDetection', device='cuda') # apply tool visualization = tool('/root/agent/road.jpg') print(visualization) # visualize image = cv2.imread('/root/agent/road.jpg') preds = visualization.split('\n') pattern = r'(\w+) \((\d+), (\d+), (\d+), (\d+)\), score (\d+)' for pred in preds: name, x1, y1, x2, y2, score = re.match(pattern, pred).groups() x1, y1, x2, y2, score = int(x1), int(y1), int(x2), int(y2), int(score) cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 1) cv2.putText(image, f'{name} {score}', (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (0, 255, 0), 1) cv2.imwrite('/root/agent/road_detection_direct.jpg', image)
接下来执行 python /root/agent/direct_use.py
以进行推理。在等待 RTMDet-Large 权重下载并推理完成后,我们就可以看到如下输出以及一张位于 /root/agent 名为 road_detection_direct.jpg 的图片:
(agent) root@intern-studio-5002746:~/agent# python /root/agent/direct_use.py Loads checkpoint by http backend from path: https://download.openmmlab.com/mmdetection/v3.0/rtmdet/rtmdet_l_8xb32-300e_coco/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth Downloading: "https://download.openmmlab.com/mmdetection/v3.0/rtmdet/rtmdet_l_8xb32-300e_coco/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth" to /root/.cache/torch/hub/checkpoints/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 433M/433M [00:18<00:00, 24.9MB/s] The model and loaded state dict do not match exactly unexpected key in source state_dict: data_preprocessor.mean, data_preprocessor.std 04/23 13:53:38 - mmengine - WARNING - Failed to search registry with scope "mmdet" in the "function" registry tree. As a workaround, the current "function" registry in "mmengine" is used to build instance. This may cause unexpected failure when running the built modules. Please check whether "mmdet" is a correct scope, or whether the registry is initialized. /root/.conda/envs/agent/lib/python3.10/site-packages/mmengine/visualization/visualizer.py:196: UserWarning: Failed to add <class 'mmengine.visualization.vis_backend.LocalVisBackend'>, please provide the `save_dir` argument. warnings.warn(f'Failed to add {vis_backend.__class__}, ' /root/.conda/envs/agent/lib/python3.10/site-packages/torch/functional.py:504: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at /opt/conda/conda-bld/pytorch_1702400410390/work/aten/src/ATen/native/TensorShape.cpp:3526.) return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined] Inference ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ truck (345, 428, 528, 599), score 83 car (771, 510, 837, 565), score 81 car (604, 518, 677, 569), score 75 person (866, 503, 905, 595), score 74 person (287, 513, 320, 596), score 74 person (964, 501, 999, 604), score 72 person (1009, 503, 1047, 602), score 69 person (259, 510, 279, 575), score 65 car (1074, 524, 1275, 691), score 64 person (993, 508, 1016, 597), score 62 truck (689, 483, 764, 561), score 62 bicycle (873, 551, 903, 602), score 60 person (680, 523, 699, 567), score 55 bicycle (968, 551, 996, 609), score 53 bus (826, 482, 930, 560), score 52 bicycle (1011, 551, 1043, 617), score 51
由于 AgentLego 算法库默认使用 InternLM2-Chat-20B 模型,因此我们首先需要修改 /root/agent/agentlego/webui/modules/agents/lagent_agent.py 文件的第 105 行位置,将 internlm2-chat-20b 修改为 internlm2-chat-7b。由于 AgentLego 的 WebUI 需要用到 LMDeploy 所启动的 api_server,因此首先按照指示在 vscode terminal 中执行如下代码使用 LMDeploy 启动一个 api_server。
conda activate agent
lmdeploy serve api_server /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b \
--server-name 127.0.0.1 \
--model-name internlm2-chat-7b \
--cache-max-entry-count 0.1
接下来按照指示新建一个 terminal 以启动 AgentLego WebUI。在新建的 terminal 中执行如下指令:
conda activate agent
cd /root/agent/agentlego/webui
python one_click.py
在等待 LMDeploy 的 api_server 与 AgentLego WebUI 完全启动后,在本地进行端口映射,将 LMDeploy api_server 的23333端口以及 AgentLego WebUI 的7860端口映射到本地。
ssh -CNg -L 7860:127.0.0.1:7860 -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的 ssh 端口号
接下来在本地的浏览器页面中打开 http://localhost:7860 以使用 AgentLego WebUI。首先来配置 Agent。
然后配置工具。
等待工具加载完成后,点击上方 Chat 以进入对话页面。在页面下方选择工具部分只选择 ObjectDetection 工具。为了确保调用工具的成功率,请在使用时确保仅有这一个工具启用。接下来就可以使用 Agent 了。点击右下角文件夹以上传图片,上传图片后输入指令并点击 generate 以得到模型回复。
在本节中,我们将基于 AgentLego 构建自己的自定义工具。AgentLego 在这方面提供了较为详尽的文档,文档地址为 https://agentlego.readthedocs.io/zh-cn/latest/modules/tool.html 。自定义工具主要分为以下几步:
其中第一二四步是必须的步骤。下面我们将实现一个调用 MagicMaker 的 API 以实现图像生成的工具。
MagicMaker 是汇聚了优秀 AI 算法成果的免费 AI 视觉素材生成与创作平台。主要提供图像生成、图像编辑和视频生成三大核心功能,全面满足用户在各种应用场景下的视觉素材创作需求。体验更多功能可以访问 https://magicmaker.openxlab.org.cn/home 。首先通过 touch /root/agent/agentlego/agentlego/tools/magicmaker_image_generation.py
(大小写敏感)的方法新建工具文件。该文件的内容如下:
import json import requests import numpy as np from agentlego.types import Annotated, ImageIO, Info from agentlego.utils import require from .base import BaseTool class MagicMakerImageGeneration(BaseTool): default_desc = ('This tool can call the api of magicmaker to ' 'generate an image according to the given keywords.') styles_option = [ 'dongman', # 动漫 'guofeng', # 国风 'xieshi', # 写实 'youhua', # 油画 'manghe', # 盲盒 ] aspect_ratio_options = [ '16:9', '4:3', '3:2', '1:1', '2:3', '3:4', '9:16' ] @require('opencv-python') def __init__(self, style='guofeng', aspect_ratio='4:3'): super().__init__() if style in self.styles_option: self.style = style else: raise ValueError(f'The style must be one of {self.styles_option}') if aspect_ratio in self.aspect_ratio_options: self.aspect_ratio = aspect_ratio else: raise ValueError(f'The aspect ratio must be one of {aspect_ratio}') def apply(self, keywords: Annotated[str, Info('A series of Chinese keywords separated by comma.')] ) -> ImageIO: import cv2 response = requests.post( url='https://magicmaker.openxlab.org.cn/gw/edit-anything/api/v1/bff/sd/generate', data=json.dumps({ "official": True, "prompt": keywords, "style": self.style, "poseT": False, "aspectRatio": self.aspect_ratio }), headers={'content-type': 'application/json'} ) image_url = response.json()['data']['imgUrl'] image_response = requests.get(image_url) image = cv2.cvtColor(cv2.imdecode(np.frombuffer(image_response.content, np.uint8), cv2.IMREAD_COLOR),cv2.COLOR_BGR2RGB) return ImageIO(image)
接下来修改 /root/agent/agentlego/agentlego/tools/init.py 文件,将工具注册在工具列表中。如下所示,将 MagicMakerImageGeneration 通过 from .magicmaker_image_generation import MagicMakerImageGeneration 导入到了文件中,并且将其加入了 all 列表中。
from .base import BaseTool from .calculator import Calculator from .func import make_tool from .image_canny import CannyTextToImage, ImageToCanny from .image_depth import DepthTextToImage, ImageToDepth from .image_editing import ImageExpansion, ImageStylization, ObjectRemove, ObjectReplace from .image_pose import HumanBodyPose, HumanFaceLandmark, PoseToImage from .image_scribble import ImageToScribble, ScribbleTextToImage from .image_text import ImageDescription, TextToImage from .imagebind import AudioImageToImage, AudioTextToImage, AudioToImage, ThermalToImage from .object_detection import ObjectDetection, TextToBbox from .ocr import OCR from .scholar import * # noqa: F401, F403 from .search import BingSearch, GoogleSearch from .segmentation import SegmentAnything, SegmentObject, SemanticSegmentation from .speech_text import SpeechToText, TextToSpeech from .translation import Translation from .vqa import VQA + from .magicmaker_image_generation import MagicMakerImageGeneration __all__ = [ 'CannyTextToImage', 'ImageToCanny', 'DepthTextToImage', 'ImageToDepth', 'ImageExpansion', 'ObjectRemove', 'ObjectReplace', 'HumanFaceLandmark', 'HumanBodyPose', 'PoseToImage', 'ImageToScribble', 'ScribbleTextToImage', 'ImageDescription', 'TextToImage', 'VQA', 'ObjectDetection', 'TextToBbox', 'OCR', 'SegmentObject', 'SegmentAnything', 'SemanticSegmentation', 'ImageStylization', 'AudioToImage', 'ThermalToImage', 'AudioImageToImage', 'AudioTextToImage', 'SpeechToText', 'TextToSpeech', 'Translation', 'GoogleSearch', 'Calculator', - 'BaseTool', 'make_tool', 'BingSearch' + 'BaseTool', 'make_tool', 'BingSearch', 'MagicMakerImageGeneration' ]
在两个 terminal 中分别启动 LMDeploy 服务和 AgentLego 的 WebUI 以体验自定义的工具的效果。
conda activate agent
lmdeploy serve api_server /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b \
--server-name 127.0.0.1 \
--model-name internlm2-chat-7b \
--cache-max-entry-count 0.1
conda activate agent
cd /root/agent/agentlego/webui
python one_click.py
并在本地执行如下操作以进行端口映射:
ssh -CNg -L 7860:127.0.0.1:7860 -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的 ssh 端口号
在 Tool 界面选择 MagicMakerImageGeneration 后点击 save 后,回到 Chat 页面选择 MagicMakerImageGeneration 工具后就可以开始使用了。为了确保调用工具的成功率,请在使用时确保仅有这一个工具启用。
1、完成 AgentLego WebUI 使用:见4.2节;
2、使用 Lagent 或 AgentLego 实现自定义工具并完成调用:见3.2节和4.3节。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。