赞
踩
在本文中,我列出了当今最常用的 NLP 库,并对它们进行了简要说明。它们在不同的用例中各有优缺点,因此它们都可以作为专门从事 NLP 的优秀数据科学家的丰富知识。
每个库的描述都是从它们的GitHub存储库中提取的。
这是顶级库的列表,按 GitHub 星数排序。
57.1k GitHub 星数。
Transformers 提供了数以千计的预训练模型来执行不同模态的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成,超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类) ). Transformer 模型还可以结合多种模式执行任务,例如表格问答、光学字符识别、从扫描文档中提取信息、视频分类和视觉问答。
目前已更新。
22.2k GitHub 星数。
spaCy 是一个免费的开源库,用于 Python 和 Cython 中的自然语言处理。它建立在最新研究的基础上,从一开始就设计用于生产环境。spaCy 带有预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型,用于标记、解析、命名实体识别、文本分类、使用 BERT 等预训练转换器进行多任务学习,以及生产就绪训练系统和简单模型打包、部署和工作流管理。spaCy 是商业开源软件,在 MIT 许可下发布。
目前已更新。
15.1k GitHub 星数。
Fairseq 是一个序列建模工具包,允许研究人员和开发人员为翻译、摘要、语言建模和其他文本生成任务训练自定义模型。它提供了各种序列建模论文的参考实现。
目前已更新。
13.9k GitHub 星数
Jina 是一个神经搜索框架,可在几分钟内构建最先进且可扩展的神经搜索应用程序。Jina 允许构建用于索引、查询、理解多/跨模态数据(例如视频、图像、文本、音频、源代码、PDF)的解决方案。
目前已更新。
12.8k GitHub 星数。
Gensim 是一个用于主题建模、文档索引和大型语料库相似性检索的 Python 库。目标受众是 NLP 和信息检索 (IR) 社区。Gensim 具有流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或 word2vec 深度学习。
目前已更新。
11.2k GitHub 星数。
Flair 是一个强大的 NLP 库。Flair 允许您将最先进的 NLP 模型应用于您的文本,例如命名实体识别 (NER)、词性标注 (PoS)、对生物医学数据的特殊支持、语义消歧和分类,支持对于数量迅速增加的语言。Flair 具有简单的界面,允许您使用和组合不同的单词和文档嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。该框架直接构建在 PyTorch 上,可以轻松训练您自己的模型并使用 Flair 嵌入和类试验新方法。
目前已更新。
10.8k GitHub 星数。
一个基于 PyTorch 构建的 Apache 2.0 NLP 研究库,用于在各种语言任务上开发最先进的深度学习模型。它提供了广泛的现有模型实现集合,这些模型实现具有良好的文档记录和高标准设计,使它们成为进一步研究的重要基础。AllenNLP 提供了一种高级配置语言来实现 NLP 中的许多常见方法,例如 transformer 实验、多任务训练、视觉+语言任务、公平性和可解释性。这允许纯粹通过配置对广泛的任务进行实验,因此您可以专注于研究中的重要问题。
目前已更新。
10.4k GitHub 星数
NLTK——自然语言工具包——是一套支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。它为超过 50 个语料库和词汇资源(如 WordNet)提供易于使用的界面,以及一套用于分类、标记化、词干提取、标记、解析和语义推理的文本处理库,以及工业级 NLP 库的包装器。
目前已更新。
8.3k GitHub 星数。
Stanford CoreNLP 提供了一套用 Java 编写的自然语言分析工具。它可以采用原始人类语言文本输入并给出单词的基本形式、词性、是否是公司名称、人名等,规范化和解释日期、时间和数字数量,标记句子结构在短语或单词依存关系方面,并指出哪些名词短语指代相同的实体。
目前已更新。
8.1k GitHub 星数。
Pattern 是 Python 的 Web 挖掘模块。它具有用于数据挖掘的工具:Web 服务(Google、Twitter、Wikipedia)、Web 爬虫和 HTML DOM 解析器。它有几个自然语言处理模型:词性标注器、n-gram 搜索、情感分析和 WordNet。它实现了机器学习模型:向量空间模型、聚类、分类(KNN、SVM、感知器)。模式也可用于网络分析:图形中心性和可视化。
2 年前的最后一次更新。
8k GitHub 星数。
TextBlob 是一个用于处理文本数据的 Python 库。它提供了一个简单的 API,用于深入研究常见的自然语言处理任务,例如词性标记、名词短语提取、情感分析、分类、翻译等。TextBlob 站在 NLTK 和 Pattern 的巨人肩膀上,可以很好地与两者配合使用。
目前已更新。
5.2k GitHub 星数。
这个库提供了当今最常用的分词器的实现,重点是性能和多功能性。
目前已更新。
3.8k GitHub 星数。
Haystack 是一个端到端的框架,使您能够为不同的搜索用例构建功能强大且可用于生产的管道。无论您想执行问答还是语义文档搜索,您都可以使用 Haystack 中最先进的 NLP 模型来提供独特的搜索体验,并允许您的用户使用自然语言进行查询。Haystack 以模块化方式构建,因此您可以结合其他开源项目(如 Huggingface 的 Transformers、Elasticsearch 或 Milvus)的最佳技术。
目前已更新。
3600 颗 GitHub 星。
Snips NLU 是一个 Python 库,它允许从用自然语言编写的句子中提取结构化信息。每当用户使用自然语言与 AI 交互时,他们的话语都需要被翻译成机器可读的含义描述。Snips NLU 的 NLU(自然语言理解)引擎首先检测用户的意图(又名意图),然后提取查询的参数(称为槽)。
2 年前的最后一次更新。
2.8k GitHub 星数。
NLP Architect 是一个开源 Python 库,用于探索最先进的深度学习拓扑和技术,以优化自然语言处理和自然语言理解神经网络。它是一个设计灵活、易于扩展的库,允许在应用程序中轻松快速地集成 NLP 模型,并展示优化的模型。
目前已更新。
2k GitHub 星数。
PyTorch-NLP 是 PyTorch NLP 的基本实用程序库。它扩展了 PyTorch,为您提供基本的文本数据处理功能。
目前已更新。
1.9k GitHub 星。
Polyglot 是一种支持海量多语言应用的自然语言管道:Tokenization(165 种语言)、语言检测(196 种语言)、命名实体识别(40 种语言)、词性标注(16 种语言)、情感分析(136 种语言)、Word嵌入(137 种语言)、形态分析(135 种语言)和音译(69 种语言)。
最后一次更新是 3 年前。
1.8k GitHub 星数。
TextAttack 是一个用于 NLP 中的对抗性攻击、数据增强和模型训练的 Python 框架。
目前已更新。
513 个 GitHub 星数。
单词形式可以准确地生成英语单词的所有可能形式。它可以共轭动词和复数单数名词。它可以连接词的不同部分,例如名词到形容词、形容词到副词、名词到动词等。
最后更新 1 年前。
420 个 GitHub 星。
Rosetta 是一个基于 TensorFlow 的隐私保护框架。它集成了主流的隐私保护计算技术,包括密码学、联邦学习和可信执行环境。Rosetta 重用了 TensorFlow 的 API,并允许将传统的 TensorFlow 代码转换为隐私保护方式,只需进行最少的更改。
目前已更新。
我在这里列出了一些数据科学库,它们并非特定于 NLP,但在 NLP 项目中经常使用。
48.6k GitHub 星数。
Scikit-learn(也称为 sklearn)是 Python 编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,旨在与 Python 数值和科学库 NumPy 和 SciPy 互操作。
目前已更新。
32.4 GitHub 星数。
pandas 是一个 Python 包,它提供快速、灵活和富有表现力的数据结构,旨在使处理“关系”或“标记”数据既简单又直观。它的目标是成为用 Python 进行实用的、真实世界的数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大、最灵活的开源数据分析/操作工具。
目前已更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。