全套解决方案：基于pytorch、transformers的中文NLP训练框架，支持大模型训练和文本生成，快速上手，海量训练数据！_clip tokenizer pytorch

作者：小小林熬夜学编程 | 2024-04-22 15:32:51

踩

clip tokenizer pytorch

全套解决方案：基于pytorch、transformers的中文NLP训练框架，支持大模型训练和文本生成，快速上手，海量训练数据！

1.简介

目标：基于pytorch、transformers做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转向量、文本生成、多模态等模型）的解决方案；
数据：
- 从开源社区，整理了海量的训练数据，帮助用户可以快速上手；
- 同时也开放训练数据模版，可以快速处理垂直领域数据；
- 结合多线程、内存映射等更高效的数据处理方式，即使需要处理百GB规模的数据，也是轻而易举；
流程：每一个项目有完整的模型训练步骤，如：数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解；
模型：当前已经支持gpt2、clip、gpt-neox、dolly、llama、chatglm-6b、VisionEncoderDecoderModel等多模态大模型；
多卡串联
：当前，多数的大模型的尺寸已经远远大于单个消费级显卡的显存，需要将多个显卡串联，才能训练大模型、才能部署大模型。因此对部分模型结构进行修改，实现了训练时、推理时
的多卡串联功能。

模型训练

中文名称	文件夹名称	数据	数据清洗	大模型	模型部署	图解
中文文本分类	chinese_classifier	✅	✅	✅	❌	✅
中文`gpt2`	chinese_gpt2	✅	✅	✅	✅	❌
中文`clip`	chinese_clip	✅	✅	✅	❌	✅
图像生成中文文本	VisionEncoderDecoderModel	✅	✅	✅	❌	✅
vit核心源码介绍	vit model	❌	❌	❌	❌	✅
`Thu-ChatGlm-6b`(`v1`)	simple_thu_chatglm6b	✅	✅	✅	✅	❌
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/469248 推荐阅读 article 深度学习实战24-人工智能(Pytorch)搭建transformer模型,真正跑通transfor... 大家好，我是微学AI，今天给大家讲述一下人工智能(Pytorch)搭建transformer模型，手动搭建transfo... 赞踩 article 【Transformers】第 10 章：服务 Transformer 模型_transformer... 您还学习了如何以更高级和更有效的方式为模型提供服务，例如使用 TFX。之后，您学习了 Docker 的基础知识以及如何以... 赞踩 article 【2023 · CANN训练营第一季】昇腾AI入门课（PyTorch）笔记分享_昇腾pytorch... 昇腾Al处理器的计算核心主要由Al Core构成，其基本结构如下图所示，包括了三种基础计算资源:矩阵计算单元、向量计算单... 赞踩 article 【论文精读】CLIP：Learning Transferable Visual Models Fro... 通过对 30 多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能，涵盖 OCR、视频中的动作识别、地理定位和... 赞踩 article [ICML 2021] CLIP: Learning Transferable Visual Mod... [ICML 2021] CLIP: Learning Transferable Visual Models From N... 赞踩 article CLIP 论文学习笔记《Learning Transferable Visual Models Fr... CLIP：transformer又一里程碑 Learning Transferable Visual Models Fr... 赞踩 article CLIP（Learning Transferable Visual Models From Natu... 摘要挑战：提前定义的标签，将大大简化问题本身。但是因为采用了有限制的标签，将会限制模型本身的泛化性，尤其是对于新的问题类... 赞踩 article ＜读论文＞(CLIP)Learning Transferable Visual Models Fro... 在构建计算机视觉模型时，只是为了某一个或某一组任务而构建数据集，往往需要大量的劳动力来进行数据标注，并且数据集的构建成本... 赞踩 article 论文笔记：CLIP：Learning Transferable Visual Models From... CLIP使用的预训练方法：预测哪个标题与哪个图片相配这一简单的预训练任务是一种高效且可扩展的方式，可以在从互联网上收集的... 赞踩 article CLIP：Learning Transferable Visual Models From Natu... CLIP打破了原有的CV领域模型的设计思路，其一次训练得到的参数可应用到所有的分类任务当中，其使用了文本和图片的对应关系... 赞踩 article 【CLIP】Learning Transferable Visual Models From Nat... 这篇论文是利用自然语言作为监督信号学习可迁移的视觉模型，学习到泛化性能好的特征，可以做zero-shot迁移，在各种数据... 赞踩 article CLIP Learning Transferable Visual Models From Natu... 目录1.引言2.架构3.Bag of Words和对比型目标函数来加速训练4.伪代码5.prompt engineeri... 赞踩 article Pytorch——BERT 预训练模型及文本分类（情感分类）_bert模型识别情感... BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展，那你一定听说过 BERT，它的诞生对自然语言处理领域... 赞踩 article 基于 pytorch 的手写 transformer + tokenizer_手写transform... 纯手工分模块实现一个 transformer 模型_手写transformer手写transformer ... 赞踩 article [linux] huggingface transformers 如何下载模型至本地 & git l... 如果不套循环，会报错 " requests.exceptions.ConnectionError: ('Connecti... 赞踩 article PyTorch Scheduler动态调整学习率_scheduler pytorch... 深度学习中长久以来一直存在一个令人困扰的问题，那就是如何选择适当的学习率。如果学习速率设置得过小，会导致模型收敛速度缓慢... 赞踩 article pytorch 自定义损失函数、优化器（Optimizer）和学习率策略（Scheduler）_py... 梯度下降回顾Pytorch 实现梯度下降与参数更新自定义损失函数自定义优化器自定义学习率策略使用 `LambdaLR` ... 赞踩 article pytorch 优化器调度器_神经网络训练中的scheduler... 通常，优化器调度器作为一个单独的对象与优化器一起使用，每个优化器调度器都有自己的超参数和更新规则。动量调整优化器：这种优... 赞踩 article 【PyTorch Lightning】.ckpt 是什么？里面有什么？... 在训练过程中保存模型的状态是一种最佳实践。这样可以在开发模型的过程中，在每个关键点上获得模型的一个版本，即一个检查点。一... 赞踩 article scheduler 的使用实验对比和总结（PyTorch）_lr_scheduler 哪个好用... scheduler 真的没有作用吗？不尽然，这很大程度上取决于你现在的损失函数面和参数配置，使用 scheduler 往... 赞踩相关标签人工智能 pytorch transformer python 深度学习笔记学习 AIGC 算法 ICML 2021 计算机视觉分类迁移学习机器学习 Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。闽ICP备14008679号