当前位置:   article > 正文

NLP基础任务项目-不断学习,不断收集,不断更新_vary旷视

vary旷视

A. 比较好的项目模块:

一: 自然语言处理

1. 基础任务集合

1.1 用bert做三元组抽取

用bert做三元组抽取
地址:项目详细解释


1.2. 线性attention

线性attention

1.3 文本分类
1.3.1 多标签分类

多标签对应的是 一对多的问题。
项目地址
4中不同的实现方法

1.3.2 Bert-Chinese-Text-Classification-Pytorch

中文文本分类

1.3.3 长文本文本分类

项目地址

1.4 CLUE的基准任务模型

描述:包含生成,分类,关键词提取,对话等基准任务模型
项目地址

1.5 文本生成
1.5.1 多语言翻译
  1. 脸书多语言翻译:
    支持200种语言

  2. 脸书 M2M -100
    支持100种语言翻译

1.5.2 文本摘要

端到端的长文本摘要模型(法研杯2020司法摘要赛道)

1.6 方面级别情感分析,小模型优于LLMA2大模型

模型训练示例

1.7 基于大模型的聚类

聚类示例

2. 常用工具集合

  1. JioNLP:中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing
    网址:NLP预处理、解析工具包
    介绍:JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。请下拉本网页,查阅具体功能信息,并按 Ctrl+F 进行搜索。JioNLP在线版 可快速试用部分功能。关注同名微信公众号 JioNLP 可获取最新的 NLP 资讯,数据资源。

二: 知识图谱

合同审查:信息抽取(NER)+规则+知识图图谱+LLM

1. 一统NER的 W2NER

W2NER
W2NER模型,将NER任务转换预测word-word(备注:中文是字-字)的关系类别,它能够统一处理扁平实体、重叠实体和非连续实体三种NER任务,即一招通吃。

三、图像处理

四、语音识别

1. FunASR: A Fundamental End-to-End Speech Recognition Toolkit

Alibaba语音识别项目

FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。

2. Robust Speech Recognition via Large-Scale Weak Supervision

openaiAI的语音识别项目

1. faster-whisper使用CTranslate2重新实现了OpenAl的Whisper模型,CTranslate2是一个用于Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。在CPU和GPU上同时进行8位量化可以进一步提高效率。

2.Whisper是一个由OpenAl开发的ASR模型,经过了大量不同音频数据集的训练。虽然它确实产生了高度精确的转录,但相应的时间戳是在话语级别,而不是每个单词,并且可能不准确几秒钟。OpenAl的whisper本身不支持批处理。

Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

Transformer序列到序列模型在各种语音处理任务上进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务被联合表示为一系列由解码器预测的令牌,允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊的令牌作为任务说明符或分类目标。
我们使用Python 3.9.9和PyTorch 1.10.1来训练和测试我们的模型,但代码库预计将与Python 3.8-3.11和最近的PyTorch版本兼容。代码库还依赖于一些Python包,最值得注意的是OpenAl的tiktoken,用于快速标记器实现。您可以使用以下命令下载并安装(或更新到)最新版本的Whisper:

3. emotion2vec情感通用表征微调模型

通用语音情感识别

emotion2vec是第一个通用的语音情感表征模型。通过自监督预训练,emotion2vec能够在不同的任务、语言和场景中提取情感表征。
该版本权重为多轮迭代微调获得的9分类情感识别模型。首先使用语音情感识别学术数据集fine-tune emotion2vec,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同,并且置信度高的数据(超过1万小时)再次fine-tune emotion2vec,获得该版本权重。
目前支持的分类为: 0: angry 1: disgusted 2: fearful 3: happy 4: neutral 5: other 6: sad 7: surprised 8: unknown

1. Vary 旷视开源ocr 识别表格

Vary

B. 比较好的论文:

一: 自然语言处理相关

二: 知识图谱相关

C. 比较好的科普文章:

一: NLP

1. NLP系列Attention 的精彩讲解,受益匪浅


2. Transformer 讲解非常好的文章
Transformer 讲解非常好的文章。这篇文章从输入开始,一步一步演示了数据在 Transformer 中的流动过程。 中文讲解在 AINLP 的公众号上很详细
第二篇和第一篇结合起来看非常合适


3. 文本相似度处理总结
比较好的文本相似度处理总结

** 4. 《SPACES:“抽取-生成”式长文本摘要(法研杯总结)》 **

摘要任务的经验
本文总结了我们做法研杯司法摘要任务的经验。有收获


二: KG

1. 知识图谱相关学习资料
知识图谱相关学习资料,提供系统化的知识图谱学习路径。


三: rasa 对话聊天机器人

csdn篇:::

  1. rasa中文聊天机器人开发指南123
    指南一
    指南二
    指南三
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/634377
推荐阅读
相关标签
  

闽ICP备14008679号