赞
踩
作者:Sangeet Aggarwal. 翻译:陈之炎 校对:冯羽
本文长度为2900字,建议阅读6分钟
数据科学,据说是本世纪最吸引人的工作,已经成为我们许多人梦寐以求的工作。但对某些人来说,数据科学看起来像一个充满挑战的迷宫,让人无从下手。如果你也是其中之一,那就继续阅读。
在本文中,我将讨论如何从零开始数据科学之旅。我将详细解释以下步骤。
学习Python编程的基本知识
学习基本统计学和数学
学习使用Python进行数据分析
学习机器学习
项目实战
如果有IT背景的话,你可能已经熟悉Python编程,此时,你可以跳过此步骤。但是如果从未接触过编码的话,应该从学习Python开始。在所有编程语言中,Python语言最容易学习,它被广泛用在开发中,也被用在数据分析中。
首先,可以搜索免费的在线教程,这些教程将有助于理解Python的基础知识。我列出了下述一些链接,这些教程可以帮助你在短时间内自学Python。可以尝试一下,自己作出选择。
learnpython.org(https://www.learnpython.org/)
谷歌的Python类
Estudy免费Python课程(视频教程)
代码学院(使用在线编辑器编程)
上述列表并非详尽无遗,你可以在网络上找到更多其它的资源,这些资源助力学习Python的基础知识,此外,你还可以在YouTube上找到许多为初学者提供的Python教程。
一旦掌握了编程语法和其他基础知识之后,你就可以开启Python的中级和高级学习之旅。要做到在数据科学领域游刃有余,我建议你至少学完中级,这样可以熟悉Python中的数据结构和文件系统。
下一步。
数据科学是分析数据并得出有用的和可操作的见解的技能。为此,必须具备基本的统计学和数学知识。虽然不要求你成为一个伟大的统计学家,但需要对数据分布和算法原理这些基础知识有所了解。 话虽如此,来看看需要学习哪些内容。
首先,复习一遍高中的统计课程,对基本概念有所了解。为此,我推荐可汗学院的“高中统计”系列课程(根据自己的实际情况做出选择)。
刷完高中统计课之后,可以开始阅读以下任何一本书:
统计学习简介(R语言)(强烈推荐)
统计思维(Python语言)
以上链接将直接访问到这些书籍的各自pdf版本,你也可以根据需要方便地购买到纸质的书。读完这些书之后,你将熟悉数据分析的基本原理,对进一步深入学习有帮助。
注意:虽然我建议你从学习Python语言来开启数据科学之旅,但在学习过程中,你会遇到其他几个工具,如R,它们也用于统计计算和数据分析。我的一般建议是,无论你遇到哪一个工具,都要有一个开放的心态。如果你正在使用两种不同的语言执行任务,其底层工作和逻辑通常是相同的,这只是一个不同的语法和框架问题。
第一次体验数据分析。
这便是它的有趣之处,在掌握了了Python编程的基本知识和统计之后,是时候一试身手了。
如果想在不付钱的情况下学习,你只需在Udacity上开设一个帐户,注册免费课程-数据分析入门。这门课程将介绍数据分析所需用到的Python库,如Pandas和Numpy。你可以按部就班地学习,在几周内轻松完成课程。
在Udacity上还有许多其他课程可以探索,此外,Udacity还提供Nanodegree程序,但通常需要付费。如果你愿意为学习付费,还有许多好的平台,如Coursera、Dataquest、Datacamp等。
在此步骤结束时,应该掌握Python的一些重要库和数据结构,如序列、数组和数据框。
还应该能够执行诸如数据处理、得出结论、矢量化操作、分组数据和组合来自多个文件的数据等任务。
虽然已经为下一步做好了准备,但在继续前进之前还有一件事需要学习:桥接数据分析与机器学习之间的终极关键-数据可视化。
数据可视化是数据分析的重要组成部分,它有助于得出结论并对数据模式可视化。为此,学习如何可视化数据势在必行,学习数据可视化最简单的方法是通读Kaggle的数据可视化课程。在此之后,你将熟悉一个重要的Python库-Seaborn。
注:Kaggle是一个受世界各地数据科学家欢迎的网站。它定期举办竞赛,以挑战数据储备的技能,并为数据爱好者提供免费的交互式课程。
太棒了!你已经学了一半以上的数据科学了。继续下一步,即机器学习。
机器学习,顾名思义,是机器(计算机)自我学习的过程。通过对计算机算法的研究,自动提升经验。根据数据和业务问题的类型,使用预定义的算法建立模型,这些模型在给定的数据上进行自我训练,然后被用在新数据上以得出结论。
掌握机器学习最简单的方法就是按照给定的顺序学习以下Kaggle的课程:
机器学习概述
中阶机器学习
特征工程(优化模型)
条条道路通罗马,虽然有许多其他的方法来学习机器学习,我提出的是最简单的方法,完全免费。如果没有资金的约束,还可以在Coursera、Udacity和其他相关平台上找到各种课程。
当这一步结束时,您将了解监督机器学习和无监督机器学习之间的区别,同时,掌握各种重要的算法,如回归,分类,决策树,随机森林等。
太棒了!从此,可以冲破迷宫加入到数据科学俱乐部,之后,需要做的便是一步一步成为更好。
读到这里,你便拥有了成为一名成功的数据科学家所需的一切。在掌握了所有的知识之后,应通过尽可能多的练习来增强它。要做到这一点,可以寻找一些项目,去解决一些商业问题。
坚持实践的最好方法之一是参加Kaggle比赛。Kaggle为你提供需要解决的问题和所需的数据。如果是一场比赛,你可以提交自己的结果,并根据获得的分数得到排名。
也可以在个人项目上建立自己的组合,通过尝试以下资源来探索数据集:
Kaggle数据集
UCI机器学习仓库
亚马逊数据集
谷歌数据库搜索引擎
为了练习,建议在本地计算机中下载并安装Anaconda, 这是开发数据科学项目的一个很好的工具包。在Anaconda众多工具中, Jupyter Notebook是构建Python项目的一种很好的方法,并帮你管理你的项目组合。
遵循本博客中的指导方针,将助力实现学习数据科学的目标,当然,在这一领域还有大量知识要学习,甚至更多的东西有待探索。继续学习吧。
原文标题:
Data Science from scratch How to step into Data Science as a complete beginner
原文链接:
https://towardsdatascience.com/data-science-from-scratch-4343d63c1c66
END
转自: 数据派THU 公众号;
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。