赞
踩
首先我们来看OpenAI系列模型:
OpenAI 并不只有一个模型,而是提供了涵盖文本、码、对话、语音、图像领域的一系列模型。
其中语言类大模型包括: GPT-3、GPT-3.5、GPT-4系列模型。
并且,OpenAI在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型),用于不同场景的应用;其中,A、B、C、D模型的全称分别是ada(埃达·洛夫莱斯)、babbage(查尔斯·巴贝奇)、curie(居里夫人)和davinci(达芬奇),四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增:虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。
为了更好的满足更多的适用场景训练不同规模的模型是目前业内的基本共识。
谷歌PaLM2 Models同时发布了四项大模型:
Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽) ,其中最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成。
Moderation模型,旨在检查内容是否符合 OpenAl的使用政策。这
些模型提供了 查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性/未成年人、暴力和暴力/图片等。
点击地址:https://platform.openai.com/docs/models/overview在models->overiew到OpenAI官网中查看目前的OpenAI模型大类:
点击以下网址:https://platform.openai.com/account/rate-limits可在个人中心一>API速率限制中查看中可以一次性看到目前账户可用的全部API
——————————————————————————————————
第一部分,需要掌握效果最好、生态最丰富、功能最齐全的OpenAl发布的大模型组
第二部分,需要掌握目前中文效果最好、最具潜力、同时具备多模态功能的开源大模型一ChatGLM 6B & visualGLM 6B
榜单一:Hugging Face@: Open LLM Leaderboard
地址:https://huggingface.co/spaces/HuggingFaceH4/open_Ilm_leaderboard
Falcon模型为阿联酋阿布扎比创新研究所(TII) 开源的大模型,号称“史上最强开源大模型”,总共400亿参数,模型在1万亿个高质量Token上完成训练,叫能超进拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。
榜单二:LMSYS组织 (UC伯克利背景): LLM Leaderboard
地址:https://chat.Imsys.org/?arena
通过匿名PK进行模型性能比较,同时纳入开源大模型和在线大模型进行PK,其中GPT-4排名第一,国内清华大学团队ChatGLM-6B 模型位列14。该榜单实时更新较慢,目前Falcon尚末参赛。
目前没有评价大模型能力的太权威的榜单。
——————————————————————————————————
清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B 是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2060s 上进行推理使用。具体来说,ChatGLM-6B 有如下特点:
ChatGLM 6B的硬件要求:
ChatGLM 6B丰富的开源生态:
微调框架:ChatGLM 6B + P- Tuning微调,项目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md
微调框架:ChatGLM 6B + LoRA微调,项目地址: https://github.com/ mymusise/ChatGLM-Tuning
本地知识库:ChatGLM 6B + LangChain,项目地址: https://github.com/ imClumsyPanda/langchain-ChatGLM
多轮对话前端:ChatGLM 6B多轮对话的Web UI展示,项目地址: https:// github.com/Akegarasu/ChatGLM-webui
——————————————————————————————————
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型, 语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2- Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。 VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M 经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉 信息对⻬到ChatGLM的语义空间;之后的微调阶段,模型在⻓视觉问答数据上训 练,以生成符合人类偏好的答案。
VisualGLM 6B部分样例 项目地址:
https://github.com/THUDM/VisualGLM-6B
Dall·E:将图像视作一种语言,将其转化为离散化的Token并进行训练,优势在 于能够非常详细的描述一张图片,但缺点在于图像的Token利用率较低,需要 1000以上的Token才能描述一张256分辨率的图; VisualGLM:考虑到人类在认识图片的时候,往往只对少量视觉语意信息感兴 趣,因此可以不用将整个图片全部离散化为图片,只将图片特征对其到预训练 语言模型即可,这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够 充分语言模型,缺点在于会缺失图像部分底层信息(细节信息);
项目地址:https://github.com/WangRongsheng/XrayGLM
基于VisualGLM模型,在UI-XRay医学诊断报告数据集上进行微调而来; 报告翻译借助OpenAI GPT模型完成翻译,微调框架为LoRA;
——————————————————————————————————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。