赞
踩
聊天参数
最大新令牌数 max_new_tokens
给定的提示令牌数量意味着在不忽略它们的情况下要生成的最大令牌数量。
简单来说,就是答案的长度。
最大提示大小(以标记为单位)
用于提示的最大令牌数。
简单来说,就是模型的记忆。除非有特殊情况,建议设置为最大值。
温度temperature
控制文本生成多样性的值。
值越高,答案越有创意,但越有可能说的是废话或八卦。
相反,较低的值会给出较少的乐趣和僵硬的答案,但模型更加诚实。
top_p
用于生成文本的单词的概率。
在0状态下,没有限制,不对应概率等于或大于0的单词被排除。
较低的值会给出意想不到的答案,而较高的值会给出更可预测的答案。
例如)“喂?” 发送聊天内容时的情况
top_p 0.7 = 仅给出正确答案概率超过 70% 的答案。
AI 的预期答案列表: 1. 是 (50%) 2. 你好 (60%) 3. 你好! (90%) 4. 你多大了 (10%)
3.嗨!(90%)输出
= 你:喂?机器人:你好!
前k个
用于生成文本的字数。
在0状态下,没有限制,并且在正数的情况下,使用该数量的文本候选词。
top_k 的数量越多,候选词的数量越多,可能会出现更多意想不到的答案。
typical_p典型_p
如果top_p的值大于0,则文本生成的概率会随着答案的累积与top_p的值成比例地调整。
当typical_p的值为0时,top_p的值是固定的。
简而言之,它决定了你的答案的上下文的一致性。
typical_p 的低值与一条评论一致。
另一方面,如果它很高,答案可能会有点乱码,但它也可以给出更有趣的答案。
repetiton_penalty重复惩罚
这个数字是为了防止重复答案。
当值为1时,不进行抑制,且值大于1时,抑制越多
它增加了语言模型不会重复相同单词的概率。
简而言之,这个数字越高,语言模型就越有可能避免像习惯一样经常使用某些单词。
较高的值会增加表达的多样性。
encoder_repetiton_penalty编码器重复惩罚
encoder_repetiton_penalty 是一个调整提示中单词出现概率的值。
当该值为1时,不应用,当该值大于1时,提示中单词出现的概率降低。
这一特性可以防止语言模型的自主性过于依赖提示,降低对话的自然度 。
no_repeat_ngram_size
防止 ngram 文本中出现重复短语的值。
当为零时,不应用它;当为正值时,它防止 ngram 中的重复。
与repetition_penalty的作用类似,但有所不同。
repetition_penalty只是降低了单词重复的概率,因此它们可能会再次重复。
然而 ,这会阻止文本生成本身重复某些单词。
n gram 表示答案中连续出现的 n 个单词。
例如,值 0 可能会导致类似“我爱你,我爱你,我爱你”的响应。
现在,如果该值为 1,我们将永远不会在答案中重复相同的单词。
“我爱你,你也爱我,我也喜欢你。”
较高的值允许答案的词汇发生变化。
但你可以胡言乱语,只是为了找到不会重复的词。
最小长度
文本生成的最小标记数。
简单来说,它设置了答案的最小长度。值越高,语言模型给出简短答案的可能性就越小。
例如,如果该值为 5,则语言模型将始终给出至少 5 个单词的答案。
Instruction template
Instruction template
聊天模式的指令模版
Session
基本设置
旗帜 | 描述 |
-h , --help | 显示此帮助消息并退出。 |
--notebook | 在笔记本模式下启动 Web UI,其中输出将写入与输入相同的文本框。 |
--chat | 以聊天模式启动 Web UI。 |
--multi-user | 多用户模式。 聊天历史记录不会保存或自动加载。 警告:这是高度实验性的。 |
--character CHARACTER | 默认情况下在聊天模式下加载的角色名称。 |
--model MODEL | 默认加载的模型的名称。 |
--lora LORA [LORA ...] | 要加载的 LoRA 列表。 如果要加载多个 LoRA,请以空格分隔名称。 |
--model-dir MODEL_DIR | 包含所有模型的目录路径。 |
--lora-dir LORA_DIR | 包含所有 loras 的目录路径。 |
--model-menu | 首次启动 Web UI 时在终端中显示模型菜单。 |
--no-stream | 不要实时流式传输文本输出。 |
--settings SETTINGS_FILE | 从此 yaml 文件加载默认接口设置。 请 settings-template.yaml 参阅示例。 如果您创建一个名为 的文件 settings.yaml ,则默认情况下将加载该文件,而无需使用该 --settings 标志。 |
--extensions EXTENSIONS [EXTENSIONS ...] | 要加载的扩展列表。 如果要加载多个扩展,请用空格分隔名称。 |
--verbose | 将提示打印到终端。 |
--listen | 使 Web UI 可从您的本地网络访问。 |
--listen-host LISTEN_HOST | 服务器将使用的主机名。 |
--listen-port LISTEN_PORT | 服务器将使用的侦听端口。 |
--share | 创建公共 URL。 这对于在 Google Colab 或类似平台上运行 Web UI 非常有用。 |
--auto-launch | 启动后在默认浏览器中打开 Web UI。 |
--gradio-auth USER:PWD | 设置 gradio 身份验证,例如“用户名:密码”; 或逗号分隔多个,如“u1:p1,u2:p2,u3:p3” |
--gradio-auth-path GRADIO_AUTH_PATH | 设置gradio认证文件路径。 该文件应包含一个或多个用户:密码对,格式如下:“u1:p1,u2:p2,u3:p3” |
--api | 启用 API 扩展。 |
--public-api | 使用 Cloudfare 为 API 创建公共 URL。 |
--api-blocking-port BLOCKING_PORT | 阻塞 API 的监听端口。 |
--api-streaming-port STREAMING_PORT | 流API的监听端口。 |
--deepspeed | 通过 Transformers 集成启用 DeepSpeed ZeRO-3 进行推理。 |
--nvme-offload-dir NVME_OFFLOAD_DIR | DeepSpeed:用于 ZeRO-3 NVME 卸载的目录。 |
--local_rank LOCAL_RANK | DeepSpeed:分布式设置的可选参数。 |
LLaMa 的 GPTQ
旗帜 | 描述 |
--wbits WBITS | 加载具有指定精度(以位为单位)的预量化模型。 支持 2、3、4 和 8。 |
--model_type MODEL_TYPE | 预量化模型的模型类型。 目前支持 LLaMA、OPT 和 GPT-J。 |
--groupsize GROUPSIZE | 团体规模。 |
--pre_layer PRE_LAYER [PRE_LAYER ...] | 分配给 GPU 的层数。 设置此参数可以启用 4 位型号的 CPU 卸载。 对于多 GPU,请写入以空格分隔的数字,例如 --pre_layer 30 60 。 |
--checkpoint CHECKPOINT | 量化检查点文件的路径。 如果不指定,则会自动检测。 |
--monkey-patch | 应用猴子补丁以将 LoRA 与量化模型结合使用。 |
--quant_attn | (triton) 启用定量注意力。 |
--warmup_autotune | (triton) 启用预热自动调谐。 |
--fused_mlp | (triton) 启用融合 MLP。 |
加速器/变压器
旗帜 | 描述 |
--cpu | 使用CPU生成文本。 警告:CPU 训练速度非常慢。 |
--auto-devices | 自动将模型拆分到可用的 GPU 和 CPU 上。 |
--gpu-memory GPU_MEMORY [GPU_MEMORY ...] | 每个 GPU 分配的最大 GPU 内存(以 GiB 为单位)。 示例: --gpu-memory 10 对于单个 GPU, --gpu-memory 10 5 对于两个 GPU。 您还可以在 MiB 中设置值,例如 --gpu-memory 3500MiB . |
--cpu-memory CPU_MEMORY | 为卸载权重分配的最大 CPU 内存(以 GiB 为单位)。 与上面相同。 |
--disk | 如果模型对于 GPU 和 CPU 的组合来说太大,请将剩余层发送到磁盘。 |
--disk-cache-dir DISK_CACHE_DIR | 保存磁盘缓存的目录。 默认为 cache/ . |
--load-in-8bit | 以 8 位精度加载模型(使用位和字节)。 |
--bf16 | 以 bfloat16 精度加载模型。 需要 NVIDIA Ampere GPU。 |
--no-cache | use_cache 生成文本时 设置为 False。 这会稍微减少 VRAM 的使用,但会降低性能。 |
--xformers | 使用 xformer 的记忆高效注意力。 这应该会增加您的代币。 |
--sdp-attention | 使用torch 2.0的sdp注意力。 |
--trust-remote-code | 加载模型时设置 trust_remote_code=True。 ChatGLM 和 Falcon 所必需的。 |
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。