搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
从前慢现在也慢
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
elasticsearch——字段截取_elasticsearch截取字符串
2
linux内核那些事之mmap_region流程梳理
3
Stable Diffusion-安装(整合版)_stablediffusion整合包
4
模拟速度控制器的基本结构_模拟控制器的基本构成
5
k8s网络插件-flannel
6
图片优化:延迟加载的实现原理及源码解析_shopify 延迟图片加载代码
7
HarmonyOS应用开发者基础认证试题_harmonyos应用开发者基础认证题库
8
联想服务器网卡型号怎么看,如何通过设备硬件ID判断无线网卡的品牌及型号
9
部署 Express 应用_express部署
10
Ubuntu18.04显卡检查和驱动安装_tegra pcie x8 endpoint
当前位置:
article
> 正文
LLM的实践古往今来(持续更新ing...)_promptbreeder: self-referential self-improvement v
作者:从前慢现在也慢 | 2024-02-22 20:18:17
赞
踩
promptbreeder: self-referential self-improvement via prompt evolution
诸神缄默不语-个人CSDN博文目录
本文主要以模型被提出的时间为顺序,系统性介绍各种
预训练模型
的理论(尤其是相比之前工作的创新点)、调用方法(最佳实践)和表现效果。
代码实践
部分主要见:
Gitee:
llm-throughtout-ages: LLM(预训练语言模型)的代码应用和最佳实践
GitHub:
PolarisRisingWar/llm-throught-ages: 预训练模型的简单实践代码
文章目录
2023年
2022年
2021年
2020年
2019年
2018年
2013年
工具包
其他在本文撰写过程中使用的参考资料
2023年
(OpenAI)GPT系:GPT-1 / GPT-2/ GPT-3 / GPT-3.5 / ChatGPT / GPT-4
GPT-1
(2018)
Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training
GPT-2
原始论文:(2019)
Language Models are Unsupervised Multitask Learners
官方博文:
Better language models and their implications
官方GitHub项目:
openai/gpt-2: Code for the paper “Language Models are Unsupervised Multitask Learners”
InstructGPT
CodeX
ChatGPT技术解析系列之:赋予GPT写代码能力的Codex - 知乎
pass@k
GPT-3原始论文:(2020)
Language Models are Few-Shot Learners
RLHF
对RLHF的改进:(2023 huggingface)
Efficient RLHF: Reducing the Memory Usage of PPO
(谷歌)Bard
(谷歌 DeepMind)
Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution
motivation是传统prompt策略都是手工完成的(比如CoT),这是sub-optimal的,因此本文提出自动化的Promptbreeder来让prompt自动改进。
Promptbreeder在一组task-specific prompt的基础上进行变换(LLM生成变换prompts,这个过程是会逐步进化的),在训练集上评估其表现。
(Facebook)LLaMA
Llama 2: Open Foundation and Fine-Tuned Chat Models
(斯坦福) Alpaca
Vicuna
Dolly
WizardLM
Orca
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
Orca-2: Teaching Small Language Models How to Reason
(百度)ERNIE系列和文心一言
(科大讯飞)讯飞星火
(阿里)通义千问
视频转文字:通义听悟
https://huggingface.co/tiiuae/falcon-40b
(清华)ChatGLM / VisualGLM
1
RWKV
我RNN天下无敌啊!
官方项目:
BlinkDL/ChatRWKV: ChatRWKV is like ChatGPT but powered by RWKV (100% RNN) language model, and open source.
博文:
发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩 - 知乎
论文:
RWKV: Reinventing RNNs for the Transformer Era
(复旦)MOSS
BELLE
BiLLa
MiniGPT-4
gpt4all
(微软)phi-1
原始论文:
Textbooks Are All You Need
:证明高质量数据可以打破scale law,在小模型上也能展现出涌现能力(数据集不是用GPT标注的,就是用GPT生成的,有点迷幻)
(微软)
Adapting Large Language Models via Reading Comprehension
改用阅读理解来train LLM
(清华)GLM系
原始论文:(2022 ACL)
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
(浙大) KnowLM:知识图谱+LLM
DeepKE-LLM: A Large Language Model Based Knowledge Extraction Toolkit
GitHub中文文档网址:
https://github.com/zjunlp/KnowLM/blob/main/README_ZH.md
Unifying Large Language Models and Knowledge Graphs: A Roadmap
DB-GPT
https://github.com/eosphoros-ai/DB-GPT/blob/main/README.zh.md
(波士顿大学)
Platypus: Quick, Cheap, and Powerful Refinement of LLMs
:对数据集进行了完善(解决了数据泄露问题),用Lora微调LLaMA 2
参考讲解博文:
大模型榜单又被刷新了~~
(UIUC+英伟达)
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
:检索增强(上下文融合学习)+mask/prefix语言模型,解决数据漂移和文本长度限制
SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding
:联合训练文本分类和命名实体识别,关注开放域自然语言理解任务
(CMU+清华)
Prompt2Model: Generating Deployable Models from Natural Language Instructions
:输入自然语言形式的任务描述,训练特定目的且便于部署的小模型
检索现有数据集+检索LLM+使用LLM生成数据集→在student上微调
(ACL)
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
(DeepMind)
Large Language Models can Learn Rules
:这个有用呀,以后有时间就看一下 (✧◡✧)
FLM-101B: An Open LLM and How to Train It with $100K Budget
信息检索
Large Language Models for Information Retrieval: A Survey
(智源) 封神榜
IDEA-CCNL/Fengshenbang-LM: Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
(谷歌)
Universal Self-Consistency for Large Language Model Generation
(谷歌)
Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses
:规划复杂的任务
(伯克利)
Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF
https://www.llm360.ai/
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU
vivo-ai-lab/BlueLM: BlueLM(蓝心大模型): Open large language models developed by vivo AI Lab
Parrot: Enhancing Multi-Turn Chat Models by Learning to Ask Questions
(东北大学)
neukg/TechGPT: TechGPT: Technology-Oriented Generative Pretrained Transformer
(腾讯)
AppAgent: Multimodal Agents as Smartphone Users
:大概来说就是自动操纵APP的
2022年
(谷歌) PaLM
博文:
Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance – Google AI Blog
PaLM: Scaling Language Modeling with Pathways
(谷歌) LaMDA:模型关心安全性和符合事实,用分类器判断回答是否安全,用外部知识源(如信息抽取系统、翻译器、计算器等)保证符合事实,构建了衡量二者的指标
论文:
LaMDA: Language Models for Dialog Applications
(谷歌) T0
(ICLR)
Multitask Prompted Training Enables Zero-Shot Task Generalization
这篇关注将各种NLP任务都转换为prompt,然后训练得到模型:
https://huggingface.co/bigscience/T0pp
prompt集锦:工具包
bigscience-workshop/promptsource: Toolkit for creating, sharing and using natural language prompts.
数据集
https://huggingface.co/datasets/bigscience/P3
(谷歌) ST-MoE
ST-MoE: Designing Stable and Transferable Sparse Expert Models
(谷歌) UL2和Flan-UL2
UL2: Unifying Language Learning Paradigms
参考讲解内容:
https://readpaper.com/paper/684903631811858432
(EMNLP huggingface) TK
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
基于transformers的encoder-decoder模型
基于T5构建
遵循in-context instrctions(任务定义、k-shot示例、解释等)来解决各种NLP任务
(Meta) ATLAS
Atlas: Few-shot Learning with Retrieval Augmented Language Models
检索增强
密集检索器模块通过MoCo对比损失进行预训练
参考讲解博文:
Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM - 知乎
(Meta) OPT
OPT: Open Pre-trained Transformer Language Models
(追一科技 苏神他们做的) RoFormer
RoFormer: Enhanced Transformer with Rotary Position Embedding
:主要改进了位置编码
2021年
RPT
CPT
(浪潮信息)源1.0
(BigScience) [GPT-NeoX-20B: An Open-Source Autoregressive Language Model](https://arxiv.org/abs/2204.06745)
参考讲解内容:
https://readpaper.com/paper/720818360680333312
(JMLR 谷歌) Switch Transformer
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
①用稀疏FFN替换密集FFN ②简化MoE
(微软&英伟达) MT-NLG
官方博文:
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model - Microsoft Research
(ACL)
AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
(OpenAI) CLIP
Learning Transferable Visual Models From Natural Language Supervision
:关注文本-图片对应的多模态任务
开源版代码:
mlfoundations/open_clip: An open source implementation of CLIP.
2020年
Longformer:解决长文本的问题
序列长度必须是512的整数倍
2
中文版:
ValkyriaLenneth/Longformer_ZH
tokenizer必须要用BertTokenizer
3
(ACL) BART
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
(ACL)
SenseBERT: Driving Some Sense into BERT
:在语义层面弱监督
Pegasus
(EMNLP Findings)
E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT
:向BERT中注入实体信息(Wikipedia2vec)
首先将Wikipedia2Vec中的词向量映射到BERT的token embedding的同一向量空间中,以学习一个映射矩阵
W W
W
,然后使用
W W
W
对Wikipedia2Vec中的实体向量进行映射,最后通过拼接的方式将实体信息注入到BERT的输入当中
(微软) DeBERTa
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
:disentangled attention + enhanced mask decoder
有两个向量,分别通过编码内容和相对位置来表示标记/单词
DeBERTa 中的 self-attention 机制处理内容到内容、内容到位置、位置到内容的 self-attention,而 BERT 中的 self-attention 相当于只有前两个组成部分。作者假设还需要位置到内容的自注意力来全面建模一系列标记中的相对位置。
此外,DeBERTa 配备了增强型掩码解码器,其中令牌/单词的绝对位置以及相关信息也被提供给解码器。
(微软) Turing-NLG
官方博文:
Turing-NLG: A 17-billion-parameter language model by Microsoft - Microsoft Research
(JMLR 谷歌) T5:标准encoder-decoder架构的Transformer,在参数量上模仿BERT
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
中心思想大概是“所有任务都可以视为Text2Text任务,所以Text2Text模型可以解决所有问题”,这个“视为”就比较类似prompt的思想:
T5论文里面介绍了各种模式的框架,最后发现encoder-decoder架构(encoder上无mask,decoder上因果mask)的效果最好,所以最后T5模型也用得是这个框架。
mask模式:
模型架构是P1:
参考讲解博文:
T5: Text-to-Text Transfer Transformer 阅读笔记 - 知乎
如何评价 Google 提出的预训练模型 T5? - 知乎
:如果需要详尽理解T5,这个问题还是很值得看的
后续还有一个对模型的升级T5.1.1
4
:将ReLU改成GeLU,decoder的prediction head不再与encoder和decoder的嵌入层共享权重,预训练阶段去掉dropout
(这都TMD什么纯纯实证经验啊)
(谷歌) mT5
mT5: A massively multilingual pre-trained text-to-text transformer
基于T5.1.1做的改进,主要将数据集改成多语言的了
参考博文:
那个屠榜的T5模型,现在可以在中文上玩玩了 - 科学空间|Scientific Spaces
(ICLR 谷歌) ALBERT
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
:减小BERT参数量(词嵌入向量的因式分解,减小了表征维度;跨层参数共享),将NSP任务换成SOP(sentence order prediction)任务(因为NSP任务成预测主题了),去掉dropout,用LAMB优化器,用n-gram mask
参考讲解博文:
Google ALBERT原理讲解 - 知乎
(ICLR) ELECTRA
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
训练一个简单的MLM,找出难以预测的token,选为预测目标
用二分类范式来判断每个token是否被替换过
5
(ICLR)
Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
:结合知识
(TACL)
SpanBERT: Improving Pre-training by Representing and Predicting Spans
:简单讲就是将BERT mask的内容换成span(多个连续token)了
(SIGGRAPH MIG)
Collaborative Storytelling with Large-scale Neural Language Models
:协作讲故事,AI代理和人类轮流添加内容。抽样→排序,根据人工偏好得到训练信号
(追一科技 苏神) WoBERT
ZhuiyiTechnology/WoBERT: 以词为基本单位的中文BERT
官方博文:
提速不掉点:基于词颗粒度的中文WoBERT - 科学空间|Scientific Spaces
2019年
Bert衍生
SCIBERT
(Meta) Roberta
修改了BERT中的参数,如使用更大的mini-batch、删除NSP目标等
NEZHA
DistilBERT
(ACL) Transformer-XL
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
(ACL) MT-DNN:BERT预训练+多任务continual pre-training
Multi-Task Deep Neural Networks for Natural Language Understanding
通过多任务学习提高泛化能力(将其视为正则化)
先预训练BERT,再微调多任务
(NeurIPS) XLNet
XLNet: Generalized Autoregressive Pretraining for Language Understanding
(ICML) MASS:encoder-decoder架构的生成式模型
论文:
MASS: Masked Sequence to Sequence Pre-training for Language Generation
预训练任务是mask连续片段,在decoder端作为目标输出
MASS论文中还给出了与BERT和GPT式语言模型的区别:
参考讲解博文:
【论文精读】生成式预训练之MASS - 知乎
BERT生成式之MASS解读 - 知乎
(微软) UniLM
【论文解读】UniLM:一种既能阅读又能自动生成的预训练模型
(清华) ERNIE
(ICLR)
Universal Transformers
图灵完备的概念我没搞懂反正,主旨是能够解决所有可解决的计算问题。可以参考这个知乎问题下的回答:
什么是图灵完备? - 知乎
然后UT的主旨就是图灵完备了,解决了transformer的问题
ACT机制也还没看
在transformers的基础上,一是具体block数可以自适应,二是增加了全局共享的transition函数
参考讲解博文:
Universal Transformers原理解读 - 知乎
(创新工场)
ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
将语言结构纳入预训练
KnowBert
(EMNLP)
Knowledge Enhanced Contextual Word Representations
:嵌入KB(用attention更新表征)
(EMNLP)
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
2018年
(2018 谷歌)Bert
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
预训练语言模型的万恶之源。
模型结构:基本上就是Transformer
模型输入编码:
预训练任务:随机mask token并预测;next sentence prediction(输出2个句子是否是上下句)
(2018 NAACL) ELMo
原论文里没有配图,可以直接参考上面BERT给出的配图:大意来说就是模型框架是Bi-LSTM,在下游任务重直接使用Bi-LSTM得到token的表征作为词向量
Deep contextualized word representations
参考讲解博文:
动态词向量算法 — ELMo - 简书
(2018 ACL) ULFMiT
Universal Language Model Fine-tuning for Text Classification
2013年
Word2Vec
Efficient Estimation of Word Representations in Vector Space
工具包
框架
PyTorch
TensorFlow
Keras
transformers
OpenBMB
LangChain
PEFT
BMTools
Megatron
NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
MLC LLM | Home
:将LLM本地部署到任何硬件后端和本地应用程序上
LlamaIndex - Data Framework for LLM Applications
大模型量化:
OpenGVLab/OmniQuant: OmniQuant is a simple and powerful quantization technique for LLMs.
vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs
SwanHub - 创新的AI开源社区
文本表征:
https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md
本地部署聊天机器人:
https://dify.ai/
turboderp/exllamav2: A fast inference library for running LLMs locally on modern consumer-class GPUs
大模型评估:
OpenCompass
zejunwang1/LLMTuner: 大语言模型指令调优工具(支持 FlashAttention)
swift/README_CN.md at main · modelscope/swift
alibaba/data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs!
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/131295
推荐阅读
article
uni
-
app
经验
分享,从入门到离职(四)——
页面
栈以及
页面
跳转
的
API
(开发
经验
总结
)...
这篇文章是本专栏
uni
-
app
的项目实战篇,主要内容的是
页面
栈以及
页面
跳转
的
API
,
页面
栈是
uni
-
app
中一...
赞
踩
article
使用
LangChain
和中文羊驼
2.0
搭建离线版
的
ChatPDF
_
chatlangchen
...
本文
的
目标是搭建一个离线版本
的
ChatPDF
(支持中英文),让你随心地与你想要阅读
的
PDF对话,借助大语言模型提升获取知...
赞
踩
article
国内IT
软件
外
包
公司
汇总(2023 最新版)_传新美讯
是
外
包
吗...
大环境不行,面试太少了,很多本科生想进
外
包
都没机会。非常时期,不需要在意那么多,
外
包
作为过渡也
是
没问题的,很多
外
包
其实比...
赞
踩
article
Mac
Pro
在
重装系统
时提示“未能与
恢复
服务器
取得联系
”...
Mac
Pro
在
重装系统
时提示“未能与
恢复
服务器
取得联系
”_未能与
恢复
服务器
取得联系
未能与
恢复
服务器
取得联系
...
赞
踩
article
C
/
C
++
编程
工具
及实用小
软件
推荐_
c++
软件
...
本文详细介绍
C
/
C
++
常用开发
工具
Visual Studio和QT
C
reater、代码查看编辑
工具
Visual Stu...
赞
踩
article
pve
宿主机
更改
网络
导致没网,
pve
更改ip
_
pev
网络
设置
...
快过年了,我把那台一直在用的小型服务器,带回去了,导致
网络
发生了变更,需要对
网络
进行调整,否则连不上网,我这里改的是宿主...
赞
踩
article
调试上传
图片
方法
_
vmnq
...
下面是直接选择
图片
的测试方法
_
vmnq
vmnq
<html> <head>...
赞
踩
article
AI
智能
分析
+
明厨
亮灶智慧
管理
平台助力“舌尖上的
安全
”...
实时监测厨房中是否有老鼠等害虫出没,一旦发现异常,系统会自动报警,告知相关人员并采取相应措施。
AI
智能
分析
+
明厨
亮灶智慧...
赞
踩
article
作图
cck8
_
快进来
领取您
的
SCI
!投稿拉锯战+
作图
干货...
相信很多小伙伴发表人生中第一篇
SCI
时,初时
的
信心干劲与过程中
的
各种困顿是交织在一起
的
。尤其当你身在一个985高校院士大...
赞
踩
article
R
语言
保存
png
,
pdf
文件出现文件损坏或空白问题的
解决方案
_
r
语言
图片
保存
成功
,
为什么里面是空白的...
R
语言
保存
png
,
pdf
文件出现文件损坏或空白问题的
解决方案
使用语句
png
(“filename.
png
”)
pdf
(“fi...
赞
踩
article
随机森林
Random
Forest
_
incmse
...
随机森林
Random
Forest
_
incmse
incmse
最近看ESR算法和3000fps...
赞
踩
article
【R语言学习笔记】探索
gg
p
lot
的
排列组合
:线图(一)_
p
<-
gg
p
lot
(
rank
merge...
上一节探索了散点图,但是散点图好像可以编辑的点不多,
排列组合
也不太多;下面进行线图的探索1、 最简单的线图 还是借用mt...
赞
踩
article
linux
(CentOS)下
Jenkins
+
GitLab
+Maven+Tomcat多环境自动发布和部...
环境:
jenkins
需要jdk1.8以上、需要
maven
3.2.5以上、需要git2.6.2以上1、安装jdk:jdk下...
赞
踩
article
人工智能
、
机器
学习
和
深度
学习
的
区别与联系_请简述
人工智能
、
机器
学习
与
深度
学习
的
关系
...
人工智能
的
浪潮正在席卷全球,诸多词汇时刻萦绕在我们耳边:
人工智能
(Artificial Intelligence)
、
机器
...
赞
踩
article
用
python
的
seaborn
库画
分类
散点图
_
python
利用
seaborn
库,绘制gdp和are...
1. 带状
分类
散点图
准备工作及数据导入代码在
seaborn
库的介绍与使用里:https://blog.csdn.net/...
赞
踩
article
软考
系统
架构
设计师
系列
知识点
之大
数据
(3)...
软考
系统
架构
设计师
系列
知识点
之大
数据
(3)
软考
系统
架构
设计师
系列
知识点
之大
数据
(3) 接前一...
赞
踩
article
使用
正则表达式
来防止
SQL
注入
攻击_
c#
sql
注入
正则表达式
...
document.domain = "csdn.net";只要几个字符就能防
SQL
注入
——
正则表达式
前天朋友的网站被S...
赞
踩
article
如何在
Kubernetes
上找到您
的
Jenkins
管理员
密码
...
使
Kubernetes
易于浏览
的
工具有时是如此出色,当我找不到找到答案
的
简单方法时,我会感到惊讶。 作为日常不使用Kub...
赞
踩
article
【R语言】
ggplot2
作图补充(1)_
theme
(
axis
.
text
.x =
element
_te...
1:隐去坐标轴标签(xlab、ylab)#加载包library(
ggplot2
)library(gcookbook)#作...
赞
踩
article
Linux
命令
记不住
怎么
办?_
linux
忘记
命令
怎么
查询...
Linux
命令
记不住
怎么
办?这里有常用
命令
简记版帮助你快速记忆_
linux
忘记
命令
怎么
查询
linux
忘记
命令
怎么
查询 ...
赞
踩
相关标签
uni-app
页面栈
页面跳转
小程序
导航栏
开发经验总结
入门基础
langchain
gpt
ai
python
面试
职场和发展
程序人生
自动化测试
功能测试
macos
C/C++
编程工具
Visual Studio
QT Creator
VS Code
网络
pve
debian