赞
踩
一定有很多次你试图在 Python 中找到一个库来帮助你完成机器学习项目。但是,经常遇到一件事!今天有如此多的 Python 库可用,并且许多库在每几年之后都会大量发布,因此选择合适的库并不容易。
有时会花费数小时寻找合适的库,以便程序可能比其他程序兼容,但是选择了一个不兼容的库并浪费的时间学习一些效果不佳或可能效果很好但程序已经变得和大象一样大。为了让事情变得更简单,我选了大家都需要知道的 15 个基本 Python 库。
本篇花了很长的时间总结,希望对大家有所帮助。
机器学习是计算机科学的一个子领域,它允许计算机通过数据学习(即逐步提高特定任务的性能),而无需明确编程。思考机器学习的一种方式是“机器摄取、处理和分析的信息越多,那些可以在新环境中稳定生存的程序就越适合。”
机器学习依赖于统计分析;基于过去表现的模式——结合模拟人类遇到问题或数据时的行为的算法——机器可以比任何人手动学习更好地执行某些任务。
机器学习已经成为每个行业的重要组成部分,几乎大公司都以某种方式使用它。因此,可以在很多地方将 ML 应用到的工作中。
无论是研究人员还是开发人员,了解机器学习是如何在现实世界中实施的,都可以帮助设想如何在自己的项目中使用它,并了解更多关于现有工具的可能性。这些网站有大量关于特定企业何时以及为何使用 ML 的文章,并让很好地了解什么是有效的。
SHAP 是一个用于执行可解释人工智能 ( XAI ) 的库。它由宾夕法尼亚大学 ( Cal U ) 开发。使用博弈论学科的计算来确定哪些因素对机器学习算法的预测影响最大。
如果使用黑盒模型,SHAP 将帮助了解如何做出选择(随机森林或神经网络)。可能会得到对单个预测以及整个预测结果组的解释。使用其API是一个简单直接的过程。
官网:https://shap.readthedocs.io/en/latest/index.html
Keras 是一个易于学习和使用的处理神经网络的高级接口。Keras 界面比 TensorFlow 界面友好得多。它的主要优点是易于使用。
使用 Keras,很容易看出我们的想法是否会在短时间内产生积极的结果。根据 Quora 的说法,Keras 以透明的方式与其他深度学习库(例如TensorFlow、CNTK或Theano)合作,以完成我们分配给它的任务。
官网:https://keras.io/getting_started/
Radim Rehurek设计了 Gensim,这是一个现在被广泛使用的自然语言处理库。Gensim 的主题建模能力是一个显着的优势。也就是说,它能够自动确定文档集合的主题。
此外,Gensim 非常适合在模拟中创建或导入分布式矢量表示,例如 word2vec。使用 Gensim,我们还可以比较和对比两篇论文的相似度,这在进行搜索时非常有用。
官网:https://radimrehurek.com/gensim/
数值计算、数据分析和机器学习都由 Python 发行版 Anaconda 支持。它包含数据科学家认为最有用的库。它还使安装您可能需要的任何其他库变得非常简单。
如果同时从事多个项目,使用 Anaconda 建立多个工作环境也是可行的。假设其中一个项目需要 Python 3,而另一个项目需要 Python 2。这在诸如此类的情况下可能很方便。或者,如果正在处理需要使用某些库或需要特定版本的项目,应该查阅文档。
官网:https://www.anaconda.com/
Matplotlib 是 Python 中使用最广泛和知名的图形包。matplotlib 库可用于生成在印刷和数字媒体上发布所需的高质量图表。
Matplotlib 允许构建各种各样的图,包括时间序列、直方图、功率谱、条形图、误差图等。
官网:https://matplotlib.org/stable/index.html
在数据科学家的世界里,Pandas 是最有价值的 Python 模块之一。在 Pandas 中,Series 数据结构用于一维数据,而 Data Frame 数据结构用于二维数据。
在金融、统计学、社会科学和各种工程领域等众多领域中,这些是最常遇到的数据结构。在数据处理和分析方面,Pandas 以其简单易用、用途广泛而著称。
官网:https://pandas.pydata.org/
Jupyter 不是传统意义上的 Python 库。但是,由于我们正在研究数据科学家使用最多的工具,因此如果不包括 Jupyter,则该列表将不完整。我经常使用 Jupyter 来测试想法和构建小型原型。当代码更复杂或者我们希望将我们的工作库在其他项目中重用时,我不提倡使用这种方法。
该界面的功能类似于浏览器中的交互式 Python 终端,增加了运行 Python 代码和查看数据和图像的功能,同时还记录了的工作。
官网:https://jupyter.org/
TensorFlow 是由 Google 创建的 Python 库,可让使用数据流图进行数值计算。对于某些人来说,这可能会让人感到意外,因为我们将编写一个图表而不是一个程序。数学运算将由该图的节点表示,张量将由边(多维数据矩阵)表示。
TensorFlow 使用基于图形的处理,可用于深度学习以及其他科学计算应用程序等。
官网:https://www.tensorflow.org/
Bokeh 是一个库,可让在 Web 浏览器中与数据可视化进行交互,而且它是免费的。借助散景,我们可以构建适应性强、有吸引力且可交互的图表。
在处理大量数据时,Bokeh 开发人员的目标是高速,即使数据是从多个来源实时提供的。
官网:https://docs.bokeh.org/en/latest/#
Travis Oliphant 最初收集的 Python 扩展模块演变为开源库 Scipy,其中包含数学工具和算法。Scipy 是数学工具和算法的集合。
Scipy 支持的许多活动和操作包括优化、线性代数、插值、特殊函数、快速傅里叶变换 (FFT)、信号和图像处理、求解常微分方程以及各种其他与科学和工程相关的活动和操作. Scilab 与 MATLAB、GNU Octave 和 Scilab 等软件竞争,这些软件都针对与 Scilab 相同类型的用户。
官网:https://scipy.org/
NumPy 提供了一种通用数据格式,允许跨各种类型的算法进行数据分析和数据共享。它可以实现许多其他类型的数据结构,包括具有巨大数据容量的多维向量和数组。
此外,该库包含高级数学函数,可用于处理其中包含的数据结构。
官网:https://numpy.org/
Seaborn 是一个基于 matplotlib 框架的图形包,特别适合显示统计数据。它有一个高级界面,用于制作既美观又实用的统计视觉效果。
Seaborn 将数据可视化视为发现和理解信息过程的重要组成部分。它与 pandas 数据操作包配合得很好。
官网:https://seaborn.pydata.org/
Scikit-learn 是一个 Python 模块,它集成了用于中等规模监督和无监督任务的各种最先进的机器学习方法。Scikit-learn 可从 Python 软件基金会免费下载。
根据 activestate 的说法,该软件包致力于通过使用通用高级语言使非专业人士可以访问机器学习。
API 的易用性、速度、文档和一致性都被视为重中之重。它具有少量依赖项,并在简化的 BSD 许可证下提供,这分别鼓励其在学术和商业环境中的使用。
官网:https://scikit-learn.org/stable/index.html
它也被称为自然语言工具包 ( NLTK ),它是用于符号和统计自然语言处理的库和应用程序的集合,旨在与 Python 编程语言一起使用。
目前,它是最受欢迎和知名的机器学习库之一。此外,根据 RealPython、图形示例和示例数据,NLTK 包含一个文档部分。
官网:https://www.nltk.org/
Theano 是一个 Python 机器学习工具包,可用作优化编译器,用于评估和操作数学表达式和矩阵运算。它是用 Python 编程语言编写的。Theano 基于 NumPy,与 NumPy 紧密集成,用户界面与 NumPy 非常相似。
借助对数和指数函数,Theano 可以自动检测并消除错误和缺陷,从而节省时间和精力。Theano 带有用于单元测试和验证的内置工具,这有助于防止错误和其他问题。
官网:https://pypi.org/project/Theano/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。