赞
踩
所有模型都有 有限的 上下文窗口,这意味着它们可以作为输入的 token 数量是有限的。如果你有很长的消息,或者一个 chain 或 agent 累积了很长的 历史消息,你需要管理你传递给模型的消息的长度。
trim_messages util 提供了一些基本策略,用于将消息列表修剪为特定的 token 长度。
为了获取消息列表中的最后一个 max_tokens,我们可以设置 strategy=“last”。请注意,对于我们的 token_counter,我们可以将其传入到一个函数 (下面将详细介绍) 或一个语言模型 (因为语言模型有一个消息令牌计数方法) 中。当调整消息以适应特定模型的上下文窗口时,将其传入到模型是有意义的:
# pip install -U langchain-openai from langchain_core.messages import ( AIMessage, HumanMessage, SystemMessage, trim_messages, ) from langchain_openai import ChatOpenAI messages = [ SystemMessage("you're a good assistant, you always respond with a joke."), HumanMessage("i wonder why it's called langchain"), AIMessage( 'Well, I guess they thought "WordRope" and "SentenceString" just didn\'t have the same ring to it!' ), HumanMessage("and who is harrison chasing anyways"), AIMessage( "Hmmm let me think.\n\nWhy, he's probably chasing after the last cup of coffee in the office!" ), HumanMessage("what do you call a speechless parrot"), ] trim_messages( messages, max_tokens=45, strategy="last", token_counter=ChatOpenAI(model="gpt-4o"), )
如果我们想始终保留初始系统消息,我们可以指定 include_system=True:
如果我们想允许拆分消息的内容,我们可以指定 allow_partial=True:
如果我们需要确保我们的第一条消息 (不包括 SystemMessage) 始终是特定类型的,我们可以指定 start_on:
trim_messages(
messages,
max_tokens=60,
strategy="last",
token_counter=ChatOpenAI(model="gpt-4o"),
include_system=True,
start_on="human",
)
我们可以通过指定 strategy=“first” 来执行获取第一个 max_tokens 的翻转操作:
trim_messages(
messages,
max_tokens=45,
strategy="first",
token_counter=ChatOpenAI(model="gpt-4o"),
)
我们可以编写一个自定义令牌计数器函数,该函数接收消息列表并返回一个整数。
from typing import List # pip install tiktoken import tiktoken from langchain_core.messages import BaseMessage, ToolMessage def str_token_counter(text: str) -> int: enc = tiktoken.get_encoding("o200k_base") return len(enc.encode(text)) def tiktoken_counter(messages: List[BaseMessage]) -> int: """Approximately reproduce https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb For simplicity only supports str Message.contents. """ num_tokens = 3 # every reply is primed with <|start|>assistant<|message|> tokens_per_message = 3 tokens_per_name = 1 for msg in messages: if isinstance(msg, HumanMessage): role = "user" elif isinstance(msg, AIMessage): role = "assistant" elif isinstance(msg, ToolMessage): role = "tool" elif isinstance(msg, SystemMessage): role = "system" else: raise ValueError(f"Unsupported messages type {msg.__class__}") num_tokens += ( tokens_per_message + str_token_counter(role) + str_token_counter(msg.content) ) if msg.name: num_tokens += tokens_per_name + str_token_counter(msg.name) return num_tokens trim_messages( messages, max_tokens=45, strategy="last", token_counter=tiktoken_counter, )
trim_message可以以命令式(如上所述)或声明式的方式使用,从而便于与链中的其他组件组合。
llm = ChatOpenAI(model="gpt-4o")
# Notice we don't pass in messages. This creates
# a RunnableLambda that takes messages as input
trimmer = trim_messages(
max_tokens=45,
strategy="last",
token_counter=llm,
include_system=True,
)
chain = trimmer | llm
chain.invoke(messages)
查看 LangSmith 跟踪,我们可以看到,在消息传递到模型之前,它们首先被修剪。
如果只看 trimer,我们可以看到它是一个Runnable对象,可以像所有Runnables一样被调用:
trimmer.invoke(messages)
在处理聊天历史记录时,修剪消息特别有用,因为聊天历史记录可能会变得任意长:
from langchain_core.chat_history import InMemoryChatMessageHistory from langchain_core.runnables.history import RunnableWithMessageHistory chat_history = InMemoryChatMessageHistory(messages=messages[:-1]) def dummy_get_session_history(session_id): if session_id != "1": return InMemoryChatMessageHistory() return chat_history llm = ChatOpenAI(model="gpt-4o") trimmer = trim_messages( max_tokens=45, strategy="last", token_counter=llm, include_system=True, ) chain = trimmer | llm chain_with_history = RunnableWithMessageHistory(chain, dummy_get_session_history) chain_with_history.invoke( [HumanMessage("what do you call a speechless parrot")], config={"configurable": {"session_id": "1"}}, )
查看 LangSmith 跟踪,我们可以看到我们检索了所有消息,但在将消息传递给模型之前,它们被修剪成只有系统消息和最后一条人类消息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。