当前位置:   article > 正文

python 数据分析与挖局书籍

python 数据分析与挖局书籍

之前一直有朋友叫我列一个数据科学的书单,说实话这件事情我是犹豫了很久的。有两个原因,其一是因为自己读书太少才疏学浅,其二我觉得基于我个人观点认为“好”的书其实可能对于很多人是不一定合适的。

不过,明天正好是世界读书日,所以这里从一个(在读的统计PhD学生➕即将去旧金山的某Startup进行Data Science暑期实习的准数据科学家)的角度,给大家列一个书单吧,里面有我读过的书,也有我想读的书。

我的原则是尽可能推一些新书,和我自己所认为的“好书”。不过我觉得,我介绍的书当中可能有不少的书在之前的回答里都有提到了,那也是难免的。毕竟很多好书都是得到了大家的一致认可的。

对于读过的书我可能会给一点点小短评,对于我想读但是没读过的书我就不发表什么太多看法了。这个书单,算是对自己过去阅读的总结,也算是未来给自己所提的要求。如果对其他人有那么一点点用,那也是极好的。

------------4.23 Update--------------------------------

这里想澄清一个误会,有些知友以为我这些书都看完了,怎么可能嘛2333。里面有些书是我读过的,有些书是我正在读的,有些书是我打算看的(todo list)。另外这个书单里面有些书,我认为是值得从头到尾看完的,有些书是适合看一部分的,还有些书是你在做项目,解决一个特定问题的时候才需要去翻查的。这些说明我会慢慢补上(施工ing)。


还有人问我怎么找到这些书的电子版的。有个论坛,叫经管之家(原人大经济论坛)我觉得不少人应该都听说过吧,我在里面混了8,9年了。

--------------------------------------------

第一部分:数据科学家核心技能(Data Scientist Core Skills)

1. 概览(Overview):

The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists (看完了)

业内老司机给数据科学新人的一些建议

<img src="https://pic2.zhimg.com/v2-06f61afb9fbcd875fd8d6ec2e0e94f11_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">

Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking (看完了)

<img src="https://pic1.zhimg.com/v2-fb2744ae718cc4fdb1f0ec2fec947a8c_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Doing Data Science: Straight Talk from the Frontline(看完了)

<img src="https://pic1.zhimg.com/v2-626cae9b0212b471ba0227a5b613c2a8_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


2. 数学(Maths):

多变量微积分(multivariate calculus):

我是觉得看MIT这门课的前两个Chapter就OK了。

ocw.mit.edu/courses/mat

线性代数(Linear Algebra):

这本书对应课程绝对良心:

ocw.mit.edu/courses/mat

<img src="https://pic2.zhimg.com/v2-6dd99244782b1126057063eaac2381c1_b.jpg" data-rawwidth="376" data-rawheight="474" class="content_image" width="376">


3. 概率论与统计(Probability And Statistics):

Introduction to Probability, Statistics, and Random Processes(还没看)

一本手把手教你概率论的书,相应学习网站上书和视频都有。

probabilitycourse.com/

<img src="https://pic2.zhimg.com/v2-50bda82b370e05f7e650713537a04e69_b.jpg" data-rawwidth="384" data-rawheight="499" class="content_image" width="384">


OpenIntro Statistics(看完了)

至今见到最好的一本统计学入门书,同样相应学习网站上书和视频都有。

OpenIntro

<img src="https://pic3.zhimg.com/v2-2dad0c6dfffd43e9a72520bb2f4ee9f2_b.jpg" data-rawwidth="400" data-rawheight="500" class="content_image" width="400">

Statistical Inference(看完了)

不少美国大学统计系研究生第一年的教材,推荐给想系统学习数理统计的同学。

<img src="https://pic2.zhimg.com/v2-414be2813d05267624b8155c6b7d5765_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Applied Linear Statistical Models(看了一半)

我觉得是把线性模型讲得很好的一本书


<img src="https://pic2.zhimg.com/v2-9d990717bee529b5107616ce2e0e81e9_b.jpg" data-rawwidth="400" data-rawheight="500" class="content_image" width="400">


An Introduction to Generalized Linear Models(看完了)

广义线性模型入门简介

<img src="https://pic1.zhimg.com/v2-2fe742ecd125baf78ace2b4fb2dc12c4_b.jpg" data-rawwidth="321" data-rawheight="499" class="content_image" width="321">


All of Statistics: A Concise Course in Statistical Inference(正在看)

注意,我觉得这本书是给的统计底子很好的人复习用的,不适合自学。

<img src="https://pic3.zhimg.com/v2-4c26ce3abcb6c5e3ffbabee27ece36f2_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">


Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (正在看)

Efron和Hastie两位大师通过这本书给了大数据时代的统计学一个非常现代和全面的介绍。

<img src="https://pic3.zhimg.com/v2-9866b935f1505ff8df8a25b4d1637e4e_b.jpg" data-rawwidth="330" data-rawheight="499" class="content_image" width="330">


Statistics in a Nutshell: A Desktop Quick Reference(翻查用)

案头的统计学速查手册

<img src="https://pic4.zhimg.com/v2-eda8df12e7ca0c46c59e311667a1a8cb_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


贝叶斯统计(Bayesian Statistics)

Bayes' Rule: A Tutorial Introduction to Bayesian Analysis(还没看)

贝叶斯统计101

<img src="https://pic4.zhimg.com/v2-aea2317b707bd9f1ce258af6e6049eaf_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


Think Bayes: Bayesian Statistics in Python(还没看)

简介怎么用Python做贝叶斯统计

这里可以免费下载:greenteapress.com/think

<img src="https://pic4.zhimg.com/v2-22e3de0c16d8b2ed76865b0c819b0fa3_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">


Bayesian Methods for Hackers(还没看)

更加深入地介绍怎么用Python做贝叶斯统计。

在线版本:CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

<img src="https://pic3.zhimg.com/v2-369f0ebeb979f3806142f39e33ebfbea_b.jpg" data-rawwidth="383" data-rawheight="499" class="content_image" width="383">

Practical Statistics for Data Scientists: 50 Essential Concepts(读完了)

我在实习期间抽空看完的一本书,这本书应该算是填平课堂的统计学和工业界数据科学的一本很好的参考指南。写得比较简洁但是直击要点,而且给出了很多reference。

这本书的github:andrewgbruce/statistics-for-data-scientists

这本书的Amazon 链接:Practical Statistics for Data Scientists: 50 Essential Concepts (9781491952962): Peter Bruce, Andrew Bruce: Books

<img src="https://pic4.zhimg.com/v2-09244663a417c84aaedd4b36ce66d863_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">



4. 机器学习(Machine Learning)
我觉得机器学习不能沉溺于理论,要尽快开始动手把玩一些实际数据集来加深对算法的理解。所以我打算推荐一些Hands-on(手把手)的书。
An Introduction to Statistical Learning: with Applications in R(看完了)

通过R讲解算法的统计学习入门书,估计被推荐烂了(笑)。可以在这本书的网站上找到这本书的pdf和数据集。

www-bcf.usc.edu/~gareth

相关课程

lagunita.stanford.edu/c


<img src="https://pic3.zhimg.com/v2-64589f8d1caa18e69f6c6d13b6786fea_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">


Applied Predictive Modeling(看完了)

黄皮书,没啥好多说的。准备面试和工作的时候必读。

<img src="https://pic2.zhimg.com/7a0593ebc0bdb7ea8dbc771ef84d6a4d_b.jpg" data-rawwidth="315" data-rawheight="499" class="content_image" width="315">


Python Machine Learning(基本上看完了)

手把手教你用sklearn做机器学习,同样是工作必备。

<img src="https://pic4.zhimg.com/4631c616b0ccb44ae1dabb82ced3a2f7_b.jpg" data-rawwidth="406" data-rawheight="500" class="content_image" width="406">


Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies(看了一半)

我觉得这本书特别适合我这种脑子不太好的人,因为他会把机器学习算法拆开,结合案例,一步一步地给你讲。

<img src="https://pic3.zhimg.com/v2-e0f9f7e35653957628948081cc9dd8f2_b.jpg" data-rawwidth="389" data-rawheight="499" class="content_image" width="389">


Real-World Machine Learning(看完了)

告诉你工业界的人怎么用Machine Learning解决实际问题的书。建议所有Data Scientist在实习前和全职工作开始前都读一下。

<img src="https://pic3.zhimg.com/v2-e70923544fbd3bd79587a2381d48b226_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">


Learning From Data(看完了)

这本书讲清楚了很多机器学习书中不怎么提到的机器学习理论,比如VC Dimension这种东西。Caltech有公开课,吐血推荐:

work.caltech.edu/teleco

<img src="https://pic4.zhimg.com/v2-ff29738930e4b6326c67e7e70b06e977_b.jpg" data-rawwidth="321" data-rawheight="499" class="content_image" width="321">



The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(看了一半)

大名鼎鼎的ESL,读起来比较累(我太渣),我觉得适合翻查和摘抄。

statweb.stanford.edu/~t

<img src="https://pic2.zhimg.com/v2-2f009d4cff98dbb168afd688b9e42559_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">


Pattern Recognition and Machine Learning(正在看)

同样大名鼎鼎的PRML,我个人觉得比ESL好读不少。

<img src="https://pic3.zhimg.com/v2-5b0c7328df61746e5eb5ad4fe313afce_b.jpg" data-rawwidth="370" data-rawheight="499" class="content_image" width="370">


5. 数据挖掘(Data Mining)

数据挖掘中不少东西其实和机器学习是重合的,至于这两个东西有什么区别,可以看看这个回答:stats.stackexchange.com

Principles of Data Mining(还没看)

非常基本的数据挖掘入门书,讲了不少Association Rule的东西

<img src="https://pic4.zhimg.com/v2-e988a90ba6aa1ea282c53f9e18e920e7_b.jpg" data-rawwidth="329" data-rawheight="499" class="content_image" width="329">


Introduction to Data Mining(正在看)

更加深入讲数据挖掘的书,干货很多

<img src="https://pic4.zhimg.com/v2-7ecdccebd1390349a7683fdde016be7b_b.jpg" data-rawwidth="394" data-rawheight="499" class="content_image" width="394">


Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management(还没看)

通过实例讲怎么通过数据挖掘赚顾客钱做生意。

<img src="https://pic1.zhimg.com/v2-920025341c4a09ba85b23c52e5f89588_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">


6. SQL:
SQL怎么入门,网上到处都是教程。书的话我只是觉得这一本Cookbook最好。因为他把很多SQL query里的陷阱都提到了,而且每道题给出了市面上所有流行数据库(MySQL,DB2,Oracle,SQL Server,Postgresql)的Query代码

SQL Cookbook: Query Solutions and Techniques for Database Developers (翻查用)

<img src="https://pic3.zhimg.com/v2-db550a152d078ab1c2a04ee487191a22_b.jpg" data-rawwidth="379" data-rawheight="499" class="content_image" width="379">


7. R:

R in Action(正在看)

有名的R语言实践

<img src="https://pic1.zhimg.com/v2-cbc98249a7e5bfaceb86f5b5db86e8b8_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">

下面是R教主Hadley Wickham的三本书,没啥好太多说的,读就是了:

R for Data Science(正在看)

在线版本:

R for Data Science

<img src="https://pic1.zhimg.com/v2-45c150ae1f6a310db14649100c9f94a0_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

R Packages(还没看)

Welcome · R packages

<img src="https://pic4.zhimg.com/v2-8709f00365918a4216a1a8a3a6d849a7_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Advanced R(还没看)

在线版本:Welcome · Advanced R.

<img src="https://pic4.zhimg.com/v2-a093bed8459755c3f5a663f97bd62047_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">


8. Python:

因为不是软件工程师,我Python水平也不高。推荐两本我用来入门和准备继续进一步提高看的书吧。

Think Python(看完了)

这本书我拿来入门的

<img src="https://pic2.zhimg.com/v2-b0149b477b03c2c685a6bf7745c9a011_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Fluent Python(还没看)

打算用来Python进阶的

<img src="https://pic4.zhimg.com/v2-63547e2ba39b2870047827e545ab320b_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Python for Probability, Statistics, and Machine Learning(还没看)

我打算用来复习概率论和统计学的书(with Python)

<img src="https://pic3.zhimg.com/v2-db93ad71cd1bfc312ac5524973591826_b.jpg" data-rawwidth="343" data-rawheight="499" class="content_image" width="343">


Python Data Science Handbook(翻查用)

一本非常全面的通过Python解决数据科学问题的工作手册。作者给出了这本书全部的Jupyter Notebook:

jakevdp/PythonDataScienceHandbook

<img src="https://pic3.zhimg.com/v2-4322d9a0159ee8cfdb4f10c1da56bbc2_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">


9. 数据科学家面试 (Data Scientist Interview)

Data Science Interviews Exposed(看完了)

几个在美国的中国人数据科学家写的面试准备书。基本给出了所有数据科学面试涵盖的知识点概述,数据科学家面试流程和注意事项,干货满满。仔细读完这本书,数据科学家面试是怎么个一回事儿,基本上你就心中有数了。

<img src="https://pic4.zhimg.com/v2-d356dd6a84e2ef3bb0d1929b45d2b06f_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Cracking the PM Interview: How to Land a Product Manager Job in Technology(读完了)

在美国,不少数据科学家在公司做的很多工作和产品相关,甚至不少数据科学家被当成半个产品经理用,所以这本产品经理的面试准备书对于数据科学家的面试也很有借鉴意义的。

<img src="https://pic4.zhimg.com/v2-6f4d6f9c93da42072fc4d07f824032cb_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

10. 算法(Algorithm)

数据科学家逃不掉算法,虽然要求不像软件工程师那么高。因为我是Python死忠,所以这里推荐的所有算法书中的算法实现都有用到Python。

Grokking Algorithms: An illustrated guide for programmers and other curious people(看了一半)

非常直观的一本算法入门书中的入门书,这本书作者不仅仅是软件工程师,他还是一个绘本画师,里面所有的插图都是他自己亲手画的,非常的萌。

<img src="https://pic1.zhimg.com/v2-aa2ffcec421aee79e2f7843ceec19d48_b.jpg" data-rawwidth="399" data-rawheight="499" class="content_image" width="399">

Problem Solving with Algorithms and Data Structures Using Python(正在看)

一本用Python讲数据结构和算法的好书,有在线的电子版。

Problem Solving with Algorithms and Data Structures using Python


<img src="https://pic2.zhimg.com/v2-ffb9b1641771d5ece60cf2f9c9a9ef35_b.jpg" data-rawwidth="407" data-rawheight="500" class="content_image" width="407">

Algorithms in a Nutshell: A Practical Guide(翻查用)

算法速查手册,给出了Python的实现。


<img src="https://pic2.zhimg.com/v2-0341e098c9ae6c7fe7b20189b66265c1_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


11. 工作手册(Handbook)

The Data Science Handbook(正在看)

我正在读的,涵盖最全面的一本数据科学工作手册,推荐给想成为“Unicorn"-全栈数据科学家的同学

<img src="https://pic3.zhimg.com/v2-d74e9df23c84691e7f6ffe716572ac52_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

12. 网络爬虫与数据折腾(Web Scraping and Data Wrangling)(还没看)

Web Scraping with Python: Collecting Data from the Modern Web

用Python3手把手教你做爬虫


<img src="https://pic3.zhimg.com/v2-b4ffcd11242fbb5076d3720fff9535ee_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Data Wrangling with Python: Tips and Tools to Make Your Life Easier(正在看)

这本书教你怎么把又脏乱差的原始数据清理,整理,折腾成你想要的样子。

<img src="https://pic3.zhimg.com/v2-69df5d1758575e59151a38cbcdc5d482_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Regular Expressions Cookbook(翻查用)

我知道很多人不喜欢正则表达式,但是又不得不面对他,经常翻查这本书应该能搞定很多问题。

<img src="https://pic1.zhimg.com/v2-99721c4b65545193d2f3d706f6aac43c_b.jpg" data-rawwidth="372" data-rawheight="499" class="content_image" width="372">

13. 数据可视化与讲故事(Data Visualization and Storytelling)

怎么画出又漂亮又高大上的图表,然后讲一个好故事把你的老板和客户忽悠得一愣一愣的,是一个好的数据科学家的终极大招之一。

Communicating Data with Tableau: Designing, Developing, and Delivering Data Visualizations(还没看)

我知道有些喜欢编程的人瞧不上各种按钮点点点的软件,但是我表示Tableau真的很好用。

<img src="https://pic3.zhimg.com/v2-40ee21bf0ddca9d60a5d89e05dbe3aaa_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Interactive Data Visualization for the Web: An Introduction to Designing with D3(还没看)

讲怎么用数据可视化工具D3.js。会一些前端技能和Javascript对数据科学家绝对是锦上添花。

<img src="https://pic3.zhimg.com/v2-eac9ebe4997831535ba7856a56f29f9e_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

Data Visualization with Python and JavaScript: Scrape, Clean, Explore & Transform Your Data(还没看)

一本讲怎么把把Python和Javascript串起来做数据可视化的书,一颗赛艇。

<img src="https://pic4.zhimg.com/v2-4233de861e872a7fdf2057325d943e0f_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Storytelling with Data: A Data Visualization Guide for Business Professionals(还没看)

教你怎么忽悠人23333

<img src="https://pic2.zhimg.com/v2-177b67adb093634d8809f16ea5aa5fc1_b.jpg" data-rawwidth="401" data-rawheight="500" class="content_image" width="401">


14. A/B 测试(A/B Testing)(看完了)

A / B Testing: The Most Powerful Way to Turn Clicks Into Customers

<img src="https://pic3.zhimg.com/v2-244161cd6d987871354c6c4c60fb5bf6_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">


Designing with Data: Improving the User Experience with A/B Testing(正在看)

Spotify 的 VP of Design and User Experience 写的怎么做AB测试的书。

<img src="https://pic1.zhimg.com/v2-4a9ba18a046b1451b851877e1a66b270_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


-----------------------分割线-------------------------

第二部分:其他技能(Some Other Skills)

这一部分推荐的书,是为那些想成为数据科学家中的超级赛亚人的同学所准备的23333

15. 神经网络与深度学习(Neural Network and Deep Learning)

Make Your Own Neural Network(正在看)

深度学习炒得火热,但是在认真学习Deep Learning之前,各位巨巨们真的不先尝试下推推公式,然后Python从头自己造一个玩具神经网络玩一玩吗,真的很好玩的!

<img src="https://pic3.zhimg.com/v2-ade025f9af129c17d5f2108ad83cd586_b.jpg" data-rawwidth="386" data-rawheight="499" class="content_image" width="386">

Deep Learning(正在看)

这个还有介绍的必要吗(望天)

Deep Learning

<img src="https://pic2.zhimg.com/v2-14aa851db467352ce589e939ebdae11d_b.jpg" data-rawwidth="384" data-rawheight="499" class="content_image" width="384">

Hands-On Machine Learning with Scikit-Learn and TensorFlow(还没看)

我觉得对于DS老司机们来说,这本书的Sklearn部分可以无视,重点放在后半部分怎么用

TensorFlow玩深度学习。

<img src="https://pic2.zhimg.com/v2-1dc2587c1ae3cfb24d7efc08660c5645_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">

16. 信息论(Information Theory)

关于信息论在数据科学上的重要性,可以看看这篇文章:

Data Science and Information Theory

Information Theory: A Tutorial Introduction(还没看)

<img src="https://pic2.zhimg.com/v2-e00038e0c6cfd843ea0a8c96ad0f6b69_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Information, Entropy, Life and the Universe: What We Know and What We Do Not Know(还没看)

<img src="https://pic2.zhimg.com/v2-05b31041330e720c0ce06a86eb49e3ed_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">


17. 因果推断(Causal Inference)

关于因果分析的重要性可以看看这个slides:

cds.nyu.edu/wp-content/

Causal Inference in Statistics: A Primer(还没看)

<img src="https://pic4.zhimg.com/v2-89988cecab26c1074b62816b3ef15503_b.jpg" data-rawwidth="348" data-rawheight="499" class="content_image" width="348">


Field Experiments: Design, Analysis, and Interpretation (还没看)

<img src="https://pic4.zhimg.com/v2-4ae63d01ada0dc5550f976baa3c276f7_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">


18. 抽样(Sampling)

Sampling(还没看)

<img src="https://pic4.zhimg.com/v2-3e52280ba8b9cb3c86ae74929dcd6343_b.jpg" data-rawwidth="312" data-rawheight="499" class="content_image" width="312">

19. 凸优化(Convex)

Convex Optimization(还没看)

斯坦福的凸优化,课程在这里:

Convex Optimization

另外这本书的网站给出了免费电子书:

Convex Optimization - Boyd and Vandenberghe


<img src="https://pic2.zhimg.com/v2-761152a9852a451c30881625992eef81_b.jpg" data-rawwidth="370" data-rawheight="499" class="content_image" width="370">

20. 增长分析(Growth Analytics)

Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)(还没看)

<img src="https://pic3.zhimg.com/v2-4f56f98d419bfa768f51c8fc2f21d2c6_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">

Web Analytics 2.0: The Art of Online Accountability and Science of Customer Centricity(还没看)

<img src="https://pic3.zhimg.com/v2-c7293e4f2a06c7e5184f76b397726456_b.jpg" data-rawwidth="399" data-rawheight="499" class="content_image" width="399">

21. 文本挖掘与自然语言处理(Text Mining And Natural Language Processing)

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit(还没看)

Python NLTK的官方指南,有在线版:

NLTK Book


<img src="https://pic2.zhimg.com/v2-e75e328a8d8b669f37bb3a58aaf47a61_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">


Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data(还没看)

<img src="https://pic4.zhimg.com/v2-f78a6cfc944e727247ad9889fd2dd287_b.jpg" data-rawwidth="329" data-rawheight="499" class="content_image" width="329">

Introduction to Information Retrieval(还没看)

斯坦福的信息萃取,有在线电子版

Introduction to Information Retrieval

<img src="https://pic3.zhimg.com/v2-cb600afb39db8a480b69892e8e0cd73a_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">

数学之美(正在看)

吴军老师的数学之美。

<img src="https://pic4.zhimg.com/38681ce0ddbd22f1cd01b16fa70af657_b.jpg" data-rawwidth="366" data-rawheight="499" class="content_image" width="366">


22. 异常检测(Anomaly Detection)

Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection(正在看)

这本书我正在读,不难读,作为Fraud Detection的概述讲得还是挺细的。

<img src="https://pic3.zhimg.com/v2-a514802008478c0b85b0af8f73a874da_b.jpg" data-rawwidth="336" data-rawheight="499" class="content_image" width="336">

Outlier Analysis(正在看)

<img src="https://pic2.zhimg.com/v2-c2066c1daf99ae06a6a5b93779ad24d1_b.jpg" data-rawwidth="361" data-rawheight="499" class="content_image" width="361">


23. 推荐系统 (Recommender Systems)

Statistical Methods for Recommender Systems(还没看)

<img src="https://pic3.zhimg.com/v2-42a7ddc6a318c74e791b195f1be1b24a_b.jpg" data-rawwidth="325" data-rawheight="499" class="content_image" width="325">


Recommender Systems: The Textbook(还没看)

<img src="https://pic1.zhimg.com/v2-15656bd0c4b29f1f4e9497efcfc9df1c_b.jpg" data-rawwidth="361" data-rawheight="499" class="content_image" width="361">


24. 社交网络分析 (Social network analysis)

Network Science(正在看)

大牛Barabási 今年的力作,关于网络科学的简介。有在线版本,里面的图漂亮得我是跪下了。

Network Science by Albert-László Barabási


<img src="https://pic2.zhimg.com/v2-fffae214c1664bc4a6486022fe43728d_b.jpg" data-rawwidth="380" data-rawheight="499" class="content_image" width="380">

Social and Economic Networks(还没看)

斯坦福教授Matthew O. Jackson的书,在coursera上有这本书的公开课。

Social and Economic Networks: Models and Analysis - Stanford University | Coursera

<img src="https://pic3.zhimg.com/v2-73e0ca0de9c8356a21493e6878a1603e_b.jpg" data-rawwidth="351" data-rawheight="499" class="content_image" width="351">

Social Network Analysis for Startups: Finding connections on the social web(还没看)

一本用Python做社交网络分析的书。

<img src="https://pic3.zhimg.com/v2-498f0563e6aa1ed891c16cdc1d7da08a_b.jpg" data-rawwidth="379" data-rawheight="499" class="content_image" width="379">

25. 时间序列预报(Time Series Analysis and Forecasting)

现在很多时间序列的书,重点放在描述时间序列上,所以会大量介绍ARMA和ARIMA。但是我这里想着重强调的是预报(Forecasting)。这里面有一套方法,个人感觉很少被传统统计系的时间序列课程介绍。

Practical Time Series Forecasting with R: A Hands-On Guide(看完了)

<img src="https://pic4.zhimg.com/v2-17f0914fdccac8e35aa1aa6d1c3beed7_b.jpg" data-rawwidth="350" data-rawheight="499" class="content_image" width="350">

Forecasting: principles and practice(还没看)

这本书也是有在线版本的,和上面那本书互补。

Forecasting: principles and practice

<img src="https://pic3.zhimg.com/v2-2b5250b9886804bc05a646db171869ee_b.jpg" data-rawwidth="348" data-rawheight="499" class="content_image" width="348">

26. 强化学习与人工智能

Reinforcement Learning: An Introduction(还没看)

强化学习入门书,有在线版

people.inf.elte.hu/lori

<img src="https://pic2.zhimg.com/v2-f2c2b2c5f64feb1ecee02f958ac9f3a9_b.jpg" data-rawwidth="389" data-rawheight="499" class="content_image" width="389">

Artificial Intelligence: A Modern Approach(还没看)

Google的大佬,研究总监Peter Norvig的书

<img src="https://pic4.zhimg.com/v2-d17caef659daabe5fddf7e6e704b3abf_b.jpg" data-rawwidth="371" data-rawheight="499" class="content_image" width="371">

-----------------------分割线-------------------------

第三部分:休闲读物(Casual Reading)

这部分介绍的书,躺在床上看看很不错。

Soft Skills: The software developer's life manual(还没看)

同软件工程师一样,数据科学家只会写代码和建模是远远不够的。软实力非常非常重要。

<img src="https://pic4.zhimg.com/v2-1b9f4daa6bd12831a932c4776280d40f_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">

The Healthy Programmer: Get Fit, Feel Better, and Keep Coding(还没看)

身体是革命的本钱,身体搞垮了怎么继续用数据科学改变世界呢?另外数据科学家其实和人打交道的机会通常来说要远远多于软件工程师,在这个看脸看身材的时代,你懂的。

<img src="https://pic2.zhimg.com/v2-9dd7c78bd4b81f2043b24d57a1542da1_b.jpg" data-rawwidth="417" data-rawheight="500" class="content_image" width="417">

Exposing the Magic of Design(还没看)

有一个Design Mindset对数据科学家是很加分的哦 :)

<img src="https://pic2.zhimg.com/v2-beaf1e42950ed0f4e59debe79508fcb9_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">


Thinking, Fast and Slow(还没看)

这本书被大V邹昕推荐过。

<img src="https://pic1.zhimg.com/v2-1f0bcb72910d6f75f590f30b53322d04_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">

Naked Statistics: Stripping the Dread from the Data(还没看)

可能是你读过最好玩的统计学读物。

<img src="https://pic4.zhimg.com/v2-0b11bf494faef24752709a217b5263f3_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">

Uncertainty: The Soul of Modeling, Probability & Statistics(正在看)

一本在哲学层面上思考数据科学的书。

<img src="https://pic2.zhimg.com/v2-f8917ee5e5df8879320e05ff309417f9_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">

---------------------------------

大概先到这里吧,豆瓣link什么的之后再慢慢补。

最后祝大家世界读书日快乐,比心~~~

------------------

答主睡前本想拍个图庆祝世界读书日,结果发现玩脱了 ,正在为以后的搬家问题发愁ing


<img src="https://pic4.zhimg.com/v2-96cac7efd618fda66c6d8dda2538aebf_b.jpg" data-rawwidth="2016" data-rawheight="1512" class="origin_image zh-lightbox-thumb" width="2016" data-original="https://pic4.zhimg.com/v2-96cac7efd618fda66c6d8dda2538aebf_r.jpg">

2016.05.17 更新,周志华老师出书了 机器学习 (豆瓣) 都已经再版好多次了才来推荐,有些晚了。
---------
2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下。
---------


机器学习 (豆瓣)

把这本书放在下面所有的推荐之上。
<img data-rawheight="384" data-rawwidth="345" src="https://pic1.zhimg.com/a876c64143afb2d57e223e6e9f90bb4c_b.jpg" class="content_image" width="345">


入门读物:
  1. 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
  2. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
  3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
  4. 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!
数据分析:
  1. SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
  3. Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。
适合入门的教程:
  1. 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
  2. Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博:王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
  4. 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。

稍微专业些的:
  1. Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
  2. Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
  4. 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!

机器学习教材:
  1. The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
  2. 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
  3. Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
  4. Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
  5. Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
  8. Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。

数据分析方面,我推荐《精益数据分析》,这本书里讲解了创业公司该如何确定指标体系,如何用数据指导产品和运营。本书还针对电商、媒体、SaaS、双边市场、Ugc等,列举了要关注的指标,并有丰富的案例。不足是整个书的内容比较散,系统性不强,但依旧是讲互联网产品数据分析方面我觉得最好的一本了。

数据挖掘方面,我推荐韩家炜的《数据挖掘概念与技术》,我自己就是在工作之后,通过阅读这本书,对数据挖掘有了系统性的认识,后来我研究用户行为序列模式挖掘的时候,发现看的许多论文都出自他的实验室。在两三年前,他还去百度做过一次报告,有幸去听了。

当然,光靠看看书是远远不够的,想深入数据分析,就在自己的工作中尝试用数据指导决策,不管是项目效果的评估,运营活动的评估,都尝试用数据来验证。对于数据挖掘,还是找个应用场景,直接写程序去尝试一下个性化推荐,分类之类的算法,这样就不会觉得云里雾里了。

大数据分析方面,也可以看看我的知乎专栏: zhuanlan.zhihu.com/sang,我里面写了一些之前在百度从零到一构建大数据平台的经历,以及如何实现数据驱动,希望能有帮助。

本文主要讲数据分析方面的书籍:从入门到精通:互联网数据分析的书籍清单。

任何一个技能的学习,都有从浅到深的过程,数据分析也不例外。因此我把推荐书籍划分成几个段位,更便于大家挑选。


Part 1 | 入门版


适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。

深入浅出数据分析 (豆瓣):HeadFirst 类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。

谁说菜鸟不会数据分析 (豆瓣):不仅讲解了一些常见的分析技巧,并附带 Excel 的一些知识以及数据分析在公司中所处的位置,对职场了解亦有一定帮助。

赤裸裸的统计学 (豆瓣):作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。

同样类似的书籍还有「统计数字会撒谎 (豆瓣)」,这本书知名度要高点,不过我还没看…


Part 2 | 进阶版

具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。

精通 Web Analytics 2.0 (豆瓣):此书虽老,但其中很多思想和流量分析的案例仍然很有借鉴意义,现在纸质书只能上淘宝买旧书了。

与此类似的有「网站分析实战 (豆瓣)」,是国内一本讲网站分析的书,没有上面经典,但胜在新出,很多案例和理念都有及时的更新。

深入浅出统计学 (豆瓣):Headfirst 类书籍,可以帮助你快速了解统计方面的知识。

数据化管理:洞悉零售及电子商务运营 (豆瓣):黄成明著,讲解在企业中应用数据的例子,读完受益匪浅,里面举的很多例子都很接地气。虽说偏向于零售业管理,但大道归一,可适用于很多行业,当时依据里面的理念规划了美团外卖面向 BD 的数据产品。

MySQL 必知必会 (豆瓣):这本也是我当年学习 SQL 的入门书,薄册子一本,看起来很快。SQL 是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师 同学,都建议点亮 这个技能点。

互联网增长的第一本数据分析手册:我司 GrowingIO 出的一本数据分析的增长手册(封面和目录见下图),为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可点击书籍名字在 GrowingIO 技术论坛中免费下载。


Part 3 | 高阶版

更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了。

决战大数据 (豆瓣):阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

精益数据分析 (豆瓣):此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。

The Wall Street Journal Guide to Information Graphics (豆瓣),华尔街日报负责商业分析的人做的可视化指南,精华且实用,我之前在公众号上写过读书笔记「华尔街日报是这样做数据可视化的(1)」,可供大家参考。

《数据仓库经典教程》:网上有人整理出来的资料,优点是简单明了,不像正常的数据仓库教材厚厚一本。


本文作者陈新涛, GrowingIO - 硅谷新一代数据分析产品 产品经理。
一、引言
肖智博已经说得很全面了,再补充一些:)
之前回答过这类问题,有兴趣的话建议先看一看:

二、因为问题已经更新到了马年,所以推荐几本2014年刚出的数据科学好书。(网上已经有PDF版可以下载,此处不再给出)

作者之一Rachel Schutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,而后在谷歌研究所担任统计学专家。Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程。她提出了数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。”另一位作者Cathy O’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)做quant。(总之是两个大牛XD)
本书前面几个章节大致介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。其中有一些内容需要一些数学基础才能吃透。 第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。

本书适合刚入行的数据爱好者以及有两三年工作经验数据科学家,作者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减少前期在数据准备上必须花费的大量时间。此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。

目前市面上关于Spark的书籍不多,这本120多页的薄书可以当做预热。Spark同Hadoop一样是基于Mapreduce算法实现的分布式计算,不同的是任务的中间输出结果可以保存在内存中无需读写HDFS,所以更加适合需要进行反复迭代的机器学习算法实验。作者Holden Karau曾在亚马逊数据挖掘项目组,目前是一名在谷歌工作的软件研发工程师。




以上,有时间再来更新。祝挖掘快乐:)
从系里的reading list挑了些分享给大家:

1. <Competing on Analytics> by Tom Davenport and Jeanne Harris.
Competing on Analytics (豆瓣)

2. <BIG DATA: A Revolution That Will Transform How We Live,Work, and Think>
book.douban.com/subject
book.douban.com/subject (中文版)

3. <The Signal and the Noise: Why So ManyPredictions Fail — but Some Don't>
book.douban.com/subject
信号与噪声 (豆瓣) (中文版)

4. <Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, orDie>
by Eric Siegel, Thomas H. Davenport
book.douban.com/subject
大数据预测 (豆瓣)

5. <The Flaw of Averages: Why We Underestimate Risk in the Face of Uncertainty>

by Sam L. Savage, Jeff Danziger, Harry M. Markowitz

The Flaw of Averages (豆瓣)


6. <Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics> by Bill Franks (high level introduction on big data technologies)

Taming The Big Data Tidal Wave (豆瓣)

驾驭大数据 (豆瓣)


7. <Uncontrolled: The Surprising Payoff of Trial-and-Error for Business, Politics, and Society>

by Jim Manzi (hi-level intro to controlled experiments with many business examples)

Uncontrolled (豆瓣)


8. <A Practitioner’s Guides to Business Analytics: Using Data Analysis Tools to Improve Your Organization’s Decision Making and Strategy> by Randy Bartlett.

Big Data Analytics with Spark: A Practitioner's Guide to Using Spark for Large Scale Data Analysis (豆瓣)


9. <Bias and Causation> by Herbert I.Weisberg

Bias and Causation (豆瓣)


10. <The Black Swan: The Impact of the Highly Improbable: With a new section: "On Robustness and Fragility"> by Nassim Nicholas Taleb (这本都没看过的同学应该面壁)

The Black Swan (豆瓣)

黑天鹅 (豆瓣)


11. <Understanding Variation: The Key to Managing Chaos> by Donald J. Wheeler

Understanding Variation (豆瓣)


12. <Win with Advanced Business Analytics: Creating Business Value from Your Data> by Jean-Paul Isson, Jesse Harriott

Win with Advanced Business Analytics (豆瓣)


13. <Handbook of Statistical Analysis and Data Mining Applications> by Robert Nisbet , John Elder IV, Gary Miner

Handbook of Statistical Analysis and Data Mining Applications (豆瓣)


14. <The Elements of Statistical Learning: Data Mining, Inference, and Prediction> by Trevor Hastie, Robert Tibshirani, Jerome Friedman

The Elements of Statistical Learning (豆瓣)


15. <Introduction to Machine learning> by Ethem Alpaydın

Introduction to Machine Learning (豆瓣)


16. <Living Standards Analytics: Development through the Lens of Household Survey Data (Statistics for Social and Behavioral Sciences)> by Dominique Haughton , Jonathan Haughton

Living Standards Analytics (豆瓣)


17. <Mostly Harmless Econometrics: An Empiricist's Companion> by Joshua D. Angrist, Jörn-Steffen Pischke

Mostly Harmless Econometrics (豆瓣)


18. <Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)> by Stephen L. Morgan, Christopher Kinship

Counterfactuals and Causal Inference (豆瓣)


19. <Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management> by Gordon S. Linoff , Michael J. A. Berry (This is a good high-level technical intro book for data mining)

Data Mining Techniques (豆瓣)


*我也陆陆续续在看,有兴趣的朋友可以私信我,我们有空一起聊聊 (´・◡・`)

*中信翻译了很多啊
*基本是General Business Analytics类别的书,技术性不会特别特别强
*之后如果我自己看到别的书会慢慢更新

知乎大神太多,我已经不知道自己是不是能答这个题了。但我真的是大公司data science部门的主力呀。。。汗。。。我只是不想写个xxx公司xxx在我的自我介绍上。。。


我看你们点赞挺多的,我又写了个更全面的入门文章,链接如下:
zhuanlan.zhihu.com/p/26

我弱弱的觉得在我的成长过程中,有两个东西对我的帮助很大,一个是网易公开课上Andrew Ng给斯坦福学生上的机器学习课程(不是现在coursera上的那个相对简单的公开课)。当年我看着屏幕,假装自己在课堂上,认真的抄写他在黑板上的每一个推导,课后也认真的思考并阅读Ng教授的note,也还好好做作业。

在deep learning都要被看不起,aaai是烂会,只有nips和icml才会被人看得起的知乎,我这么说可能实在是有点不上档次。^_^。不过我还是强烈安利网易公开课上的二十个视频。

还有一个就更启蒙了,大二的时候参加高教社杯数学建模比赛,侥幸获得国二。美赛icm和mcm也都参加了,两个m奖。现在看起来当时所谓的“模型”就跟小孩子过家家一样,但过不过这个家家,对我的思维方式影响挺大。

还有三个对我影响力很大的课程。

大二的时候,我有一个很好的概率论老师,我相信这么多年没见,他可能还会记得我。

研一的时候,我幸运的碰到了两个很好的老师教我统计和统计信号处理。

类似Ng教授的课,我自学了mit的 Gilbert Strang的linear algebra 视频公开课。讲得很好。应该有中文字幕了吧。

总结一下,楼主你看书不如看视频。那些“轻松入门”的书,可能并不能给你带来真正的收获。

###

作为网易跟贴局副局长,我还是想安利一下我家大网易。网易公开课还挺不错的,还有个英国老师在耶鲁讲博弈论,挺有意思的。如果去金融行业做数据,必考博弈论吧。

三个课程链接见评论区

入门篇:

1.《深入浅出数据分析》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-1e5b19a63748b391c72fd569835fdfa9_b.png&quot; data-rawwidth=&quot;530&quot; data-rawheight=&quot;199&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;530&quot; data-original=&quot;https://pic2.zhimg.com/v2-1e5b19a63748b391c72fd569835fdfa9_r.png&quot;&amp;gt;

内容简介:《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文以后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。

本书构思跌宕起伏,行文妙趣横生,无论是职场老手,还是业界新人,无论是字斟句酌,还是信手翻阅,相信都能跟着文字在职场中走上几回,去体味数据分析领域的乐趣与挑战。


2. 《谁说菜鸟不会数据分析》

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-ed47d887333e3f3e74fbf9fbe52ee534_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;210&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic1.zhimg.com/v2-ed47d887333e3f3e74fbf9fbe52ee534_r.png&quot;&amp;gt;

内容简介:《谁说菜鸟不会数据分析》基于通用的Excel工具,形式活泼,内容丰富而且充实,让人有不断阅读下去的动力。在8个章节中,分别讲解数据分析必知必会的知识、数据处理技巧、数据展现的技术、通过专业化的视角来提升图表之美、数据分析报告的撰写技能以及持续的修炼。


3. 《大数据时代》

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-55bce002409b409095fc24e42fe19273_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;230&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic4.zhimg.com/v2-55bce002409b409095fc24e42fe19273_r.png&quot;&amp;gt;

内容简介:维克托•迈尔•舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。

本书的核心在于大数据预测,并在书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。


4. 《深入浅出SQL》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-bdb6796bbf11befdde00ce657a39d9c1_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;205&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-bdb6796bbf11befdde00ce657a39d9c1_r.png&quot;&amp;gt;

内容简介:《深入浅出SQL》带你进入SQL语言的心脏地带,从使用INSERT和SELECT这些基本的查询语法到使用子查询(subquery)、连接(join)和事务(transaction)这样的核心技术来操作数据库。到读完《深入浅出SQL(影印版)》之时,你将不仅能够理解高效数据库设计和创建,还能像一个专家那样查询、归一(normalizing)和联接数据。你将成为数据的真正主人。


5.《数据之美》

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-2fc875edd61e0875b37e3f8d62a1a5bb_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;212&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic4.zhimg.com/v2-2fc875edd61e0875b37e3f8d62a1a5bb_r.png&quot;&amp;gt;

内容简介:本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及到数据的一些最有趣的项目。


进阶篇:

1.《精益数据分析》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-c53ddd241178f2317197f0dece33df9d_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;238&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-c53ddd241178f2317197f0dece33df9d_r.png&quot;&amp;gt;

内容简介:本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。30多个案例分析,全球100多位知名企业家的真知灼见,为你呈现来之不易、经过实践检验的创业心得和宝贵经验,让你深入理解精益创业、数据分析基础,和数据驱动的思维模式。


2.《网站分析实战》

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-adaa5163b2204d4fd07ab38e640ee678_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;200&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic1.zhimg.com/v2-adaa5163b2204d4fd07ab38e640ee678_r.png&quot;&amp;gt;

内容简介:本书以通俗易懂的方式来讲解网站分析所需掌握的知识,剖析日常工作中遇到的问题,并且配合大量的实战案例的讲解。

不管你是做网络营销、互联网产品设计、电子商务运营、个人站点运营维护,我们都希望从数据中寻找有价值的结论,并且指导公司管理层的决策,最终创造更大的网站价值。


3.《R语言实战》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-3e9d68e98c34492aea5976400819b159_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;227&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-3e9d68e98c34492aea5976400819b159_r.png&quot;&amp;gt;

内容简介:通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!


4.《利用Python进行数据分析》

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-5fb46adcec7e44297ff9935fa0454b1a_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;234&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic3.zhimg.com/v2-5fb46adcec7e44297ff9935fa0454b1a_r.png&quot;&amp;gt;

内容简介:还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。

由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。


5.《深入浅出统计学》
&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-6bb69bca9113c6433b326b9f7030663f_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;232&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic4.zhimg.com/v2-6bb69bca9113c6433b326b9f7030663f_r.png&quot;&amp;gt;

内容简介:本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。



6.《用户体验度量》

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-98bf89f492c371a9d2bd9f7d031b1a77_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;237&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic4.zhimg.com/v2-98bf89f492c371a9d2bd9f7d031b1a77_r.png&quot;&amp;gt;

内容简介:有效地测量任何产品的可用性都需要选择和使用正确的度量.并要有效地利用它所揭示出来的信息。《用户体验度量》首次介绍了相关实用资料.可以使可用性从业人员和产品开发人员完成这种测量。作者把几十个种度量整理成六类:绩效、基于问题的、自我报告式的、Web导航、综合性的/派生的, 以及生理/行为的。他们对每一种度量都进行了考察,并认真考虑了收集、分析和呈现这些数据的最佳方法。他们对使用任何技术来测量任何类型产品的可用性都提供了步进式指导。


7. 《The Wall StreetJournal Guide to Information Graphics》
&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-ac4344932b75f7a962efa81a3f45708f_b.png&quot; data-rawwidth=&quot;562&quot; data-rawheight=&quot;200&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;562&quot; data-original=&quot;https://pic4.zhimg.com/v2-ac4344932b75f7a962efa81a3f45708f_r.png&quot;&amp;gt;

内容简介:“华尔街日报”的新闻图形总监倾力之作,本书通过循序渐进的指南和清晰简洁的图形,为我们展示如何使用不同的技术来有效地传达消息。


高段位:

1.《数学之美》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-6ddb7573b469d9ae2d3b44a94143da6d_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;222&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-6ddb7573b469d9ae2d3b44a94143da6d_r.png&quot;&amp;gt;

内容简介:作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式——如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。


2. 《数据挖掘与数据化运营实战》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-543c9169913e8f6c2d7e044970e9d999_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;224&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-543c9169913e8f6c2d7e044970e9d999_r.png&quot;&amp;gt;

内容简介:《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。


3.《集体智慧编程》
&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-fceb35c12d48f63176608636d7b5bed4_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;235&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic1.zhimg.com/v2-fceb35c12d48f63176608636d7b5bed4_r.png&quot;&amp;gt;

内容简介:本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。

本书是Web开发者、架构师、应用工程师等的绝佳选择。


4. 《数据挖掘-市场营销、销售与客户关系管理领域应用》

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-859621c1bf3634a0ea502480b6eea2a7_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;231&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic4.zhimg.com/v2-859621c1bf3634a0ea502480b6eea2a7_r.png&quot;&amp;gt;

内容简介:本书是数据挖掘领域的经典著作,数年来畅销不衰。全书从技术和应用两个方面,全面、系统地介绍了数据挖掘的商业环境、数据挖掘技术及其在商业环境中的应用。


5. 《数据可视化之美》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-e1a1db59bfd0829041c497362b8e59f9_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;233&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-e1a1db59bfd0829041c497362b8e59f9_r.png&quot;&amp;gt;

内容简介:在《数据可视化之美》中,20多位可视化专家包括艺术家、设计师、评论家、科学家、分析师、统计学家等,展示了他们如何在各自的学科领域内开展项目。他们共同展示了可视化所能实现的功能以及如何使用它来改变世界。


6.《流量的秘密》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-0b84743c5e2ab0ad49d0a9d37266d441_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;222&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-0b84743c5e2ab0ad49d0a9d37266d441_r.png&quot;&amp;gt;

内容简介:《流量的秘密:Google Analytics网站分析与优化技巧》将运用最新的网络计量学方法,教你获取真正有价值的信息。

哪种市场营销活动最有成效?如何量化这些效果?应该从哪些衡量指标进行追踪?《流量的秘密:Google Analytics网站分析与优化技巧》介绍的Google Analytics分析工具,将帮你完美解决这些问题,让你真正量化网站的成效。

《流量的秘密:Google Analytics网站分析与优化技巧》讲述了安装和配置Google Analytics最实用的技术,目标很明确:将最大化网站潜力所需要的知道奉献给读者。通过了解网站的访客,你可以如手术刀般精准地调整网页内容和营销预算,以期获得更佳的投资回报率。

《流量的秘密:Google Analytics网站分析与优化技巧》适合市场营销人员、网站管理员、网站决策人员,还有所有对网站营销有商业兴趣的人。


7. 《数据化决策》

&lt;img src="https://pic3.zhimg.com/v2-bbb0c37d0d541add08cff45c768fdeea_b.png" data-rawwidth="576" data-rawheight="228" class="origin_image zh-lightbox-thumb" width="576" data-original="https://pic3.zhimg.com/v2-bbb0c37d0d541add08cff45c768fdeea_r.png"&gt;

内容简介:数据无孔不入,大数据时代,谁掌握了数据,谁就能把握成功。“一切皆可量化”,道格拉斯这个大胆的宣言是解决诸多生活和商业问题的关键所在。本书详细讲解了:专注于量化不确定性、风险和数据价值;提供了令人拍案惊奇的测算无形之物的简便方法,让你仅仅基于已知数据就能准确决策;展示了丰富而精彩的量化案例,让身边的数据唾手可得。

本书兼具实用性、可读性与趣味性,甚至让反感数据的人也能发现它的亲切。


8. 《机器学习》
&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-46918c668d3e723b86558ac1dde7083d_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;228&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-46918c668d3e723b86558ac1dde7083d_r.png&quot;&amp;gt;

内容简介:《机器学习》展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。《机器学习》综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。


9.《数据挖掘与R语言》

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-7846d464765423536c6347f27d58f455_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;244&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic2.zhimg.com/v2-7846d464765423536c6347f27d58f455_r.png&quot;&amp;gt;

内容简介:本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。


10.《数据挖掘与知识发现》

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-9811f9a341aa12d06bb98e04708a5d9e_b.png&quot; data-rawwidth=&quot;576&quot; data-rawheight=&quot;228&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;576&quot; data-original=&quot;https://pic3.zhimg.com/v2-9811f9a341aa12d06bb98e04708a5d9e_r.png&quot;&amp;gt;

内容简介:本书详细地介绍了关联规则、聚类分析、决策树、贝叶斯网络、人工神经网络、支持向量机、粗糙集、模糊集等数据挖掘模型与算法。

我也来分享一个自己的书单:

#关于这份学习清单#

我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。

Ps:这是第一版学习指南,由于最近时间比较紧张,预计在第二版中会加入业务材料的推荐和更多的学习索引,欢迎关注。



1先验知识

由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。

1.1 课程

可汗学院公开课:线性代数课程

&amp;lt;img src=&quot;https://pic3.zhimg.com/537a170fb299d937d68b91df71d9449a_b.png&quot; data-rawwidth=&quot;600&quot; data-rawheight=&quot;334&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;600&quot; data-original=&quot;https://pic3.zhimg.com/537a170fb299d937d68b91df71d9449a_r.png&quot;&amp;gt;

可汗学院公开课:线性代数

因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。

“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”

1.2 参考书籍

(1)线性代数 豆瓣评分7.3

&amp;lt;img src=&quot;https://pic3.zhimg.com/d490bc579b1ba95de7d4a12cafc20ed2_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。

(2)高等代数 豆瓣评分8.1

&amp;lt;img src=&quot;https://pic1.zhimg.com/bf06594fc319ecfe3619d5c63ee98f74_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。

当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。




2统计分析学习资料

2.1 统计学/概率课程

同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:

(1) 可汗学院公开课:统计学

&amp;lt;img src=&quot;https://pic4.zhimg.com/af78289824d7f1ae85b3b0f10a25b12b_b.jpg&quot; data-rawwidth=&quot;937&quot; data-rawheight=&quot;310&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;937&quot; data-original=&quot;https://pic4.zhimg.com/af78289824d7f1ae85b3b0f10a25b12b_r.jpg&quot;&amp;gt;

可汗学院公开课:统计学

(2) 可汗学院公开课:概率

&amp;lt;img src=&quot;https://pic2.zhimg.com/f84d488f6c6f94e07f259ca65ea32859_b.jpg&quot; data-rawwidth=&quot;935&quot; data-rawheight=&quot;306&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;935&quot; data-original=&quot;https://pic2.zhimg.com/f84d488f6c6f94e07f259ca65ea32859_r.jpg&quot;&amp;gt;

可汗学院公开课:概率


这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。


2.2统计学/概率参考书

(1)统计学 豆瓣评分8.8
作者William Mendenhall / Terry Sincich

&lt;img src="https://pic3.zhimg.com/68d1b4e513da59d1a32d37971185cc0a_b.jpg" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”

非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强

(2)统计学 豆瓣评分7.3
作者:贾俊平,何晓群,金勇进
&lt;img src="https://pic1.zhimg.com/e98a11ab29d78931ac957ece8c9eb704_b.jpg" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。

(3)统计推断 豆瓣评分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich
&lt;img src="https://pic1.zhimg.com/4455cdd6bfc9e280b6983aec69951d18_b.jpg" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”
可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮



3机器学习资料

3.1机器学习课程

强烈推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!

&amp;lt;img src=&quot;https://pic4.zhimg.com/6581d97dcd86fe2ae06958dc67f29f17_b.jpg&quot; data-rawwidth=&quot;748&quot; data-rawheight=&quot;377&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;748&quot; data-original=&quot;https://pic4.zhimg.com/6581d97dcd86fe2ae06958dc67f29f17_r.jpg&quot;&amp;gt;

Coursera地址:

Coursera - Free Online Courses From Top Universities

网易公开课地址:

斯坦福大学公开课 :机器学习课程


同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。

如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;

另外现在国内也有越来越多的培训网站推出相关课程,大家有兴趣的可以自己搜搜,这里就不做推荐了;


3.2机器学习教材

(1)数据挖掘导论 豆瓣评分8.4,/英本原本8.8

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

&amp;lt;img src=&quot;https://pic1.zhimg.com/058cbb12a4186c4fa19527c7a8308ca0_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材,有一定难度。这本书从简单的数据开始,到各种分类算法,聚类算法,关联规则都有相对完整的指引,我认为对于我们构建自身的统计挖掘体系是有很大的帮助。中文版本翻译还是挺好的,但是英文原版那是极好的。


(2)统计学习方法 豆瓣评分:8.9

作者:李航

&amp;lt;img src=&quot;https://pic2.zhimg.com/90e05ae9f5528d9a20d66ad341274ac1_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

个人认为中文教材里面少见的精品,虽然精简,但逻辑非常的清晰,非常详细地为我们剖析了算法原理,可能不太适合入门者,但是还是非常值得推荐阅读学习,建议将《数据挖掘导论》以及《统计学习方法》相互借鉴学习


(3)The Elements of Statistical Learning(统计学习基础)

豆瓣英本原版评分9.4 中文评分7.4

&amp;lt;img src=&quot;https://pic4.zhimg.com/cfc2dc38da71ca05f9d2385c2bfe880b_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

作者:Trevor Hastie

这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)

这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。

此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:

Elements of Statistical Learning: data mining, inference, and prediction.2nd Edition.





前面都是一些理论知识,但是数据科学里面实践应用又是另外一个重中之重,接下来谈一下借助工具进行实践应用的问题,由于Python还在整理当中,本次主要介绍SPSS与R语言



4SPSS学习资料

考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍


4.1SPSS统计分析资料

SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。

(1) SPSS统计分析基础教程 豆瓣评分8.4

&amp;lt;img src=&quot;https://pic1.zhimg.com/312c74fcc85862243502147e9f19b3a8_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南


(2)高等学校教材(SPSS统计分析高级教程)豆瓣评分7.7

&lt;img src="https://pic2.zhimg.com/08534747e60b13cf869717936c1a056d_b.jpg" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力

另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》



4.2 SPSS机器学习教程

(1)Modeler官方的帮助文档和Sample文件

&amp;lt;img src=&quot;https://pic2.zhimg.com/fdda4c9b582245e1d768887ca079ffb9_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要一本如:《IBM SPSS Modler 应用程序指南》


(2) IBM SPSS数据分析与挖掘实战案例精粹 豆瓣评分9.3

作者:张文彤,钟云飞

&lt;img src="https://pic3.zhimg.com/9d5fa3eaa16874dec647b2964664caee_b.png" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。



5R语言学习资料

(1)R语言实战 豆瓣评分8.8

作者:Robert I.Kabacoff

&amp;lt;img src=&quot;https://pic3.zhimg.com/9464f26aee5471d980f0a676bfadb942_b.jpg&quot; data-rawwidth=&quot;240&quot; data-rawheight=&quot;320&quot; class=&quot;content_image&quot; width=&quot;240&quot;&amp;gt;

首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。


(2)AnIntroduction to Statistical Learning(统计学习导论) 英本版豆瓣评分9.5,中文版7.6

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman

&lt;img src="https://pic1.zhimg.com/ee466b710d02650e44ded5301dc96e64_b.jpg" data-rawwidth="240" data-rawheight="320" class="content_image" width="240"&gt;
此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。




最后厚颜无耻地介绍我个人的公众号,wetalkdata,定期更新数据分析,数据挖掘方法,Statistics以及Modeler操作指南(比帮助手册更详细),而且还有送书活动!

weixin.qq.com/r/KEhPVwX (二维码自动识别)

我们按照概率论数理统计→数据分析→数据挖掘→非参数统计→机器学习这一由浅入深的学习路径,整理了17本值得推荐的国内外书籍。


第一阶段:概率论数理统计

刚入门的新人需掌握基础概率论、数理统计、高等代数、微积分等知识。其中,高等代数和数学分析是数据分析与挖掘的基础。

学习时,重点理解知识点背后的原理,并能够用平实的语言描述主要方法和理论。推荐阅读以下3本书籍。


1. Mathematical Statistics and Data Analysis

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-1a31c21af816537eb546f16f9e1efb1e_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;192&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由: 美国本科生常用的数理统计与数据分析教材,是一本经典详尽的统计学入门书,基于简单的微积分,可以培养读者的统计直觉。对学习者的数学要求是能够熟练掌握高等代数,会多重积分。本书强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用

购买地址item.jd.com/1189924923.


2. All of Statistics: A Concise Course in Statistical Inference

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-a2dbff9a0ea20bdc2cbb392c8fa6d2e3_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;231&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★

推荐理由:大牛之作,卡内基梅隆大学(CMU)的Larry Wasserman写的统计学概要,深入浅出,薄薄的一本(不到200页),适合有一定数学基础的初学者。作者的文风清楚易懂,将重点放在统计概念的阐述上,而不是繁琐复杂的数学证明,同时涉及一些基本的统计与学习模型。

本书需要读者了解微积分和线性代数的知识,对概率论和统计知识没有要求。

美中不足是文本中有些错误之处,阅读时可以参考本书上的正误表。

购买地址item.jd.com/1136652750.


3. Introduction to Probability and Statistic

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-79d6a26cb2943a37a716dcaae78d1a6d_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;187&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★

推荐理由: 概率论与数理统计的经典教材,对了解基础概率论和统计知识很有帮助。作者在这本书中强调了用概率学洞察数学分析的方式,最终得到一种对常用数学分析法最直观的理解方式。从书中的练习以及举的案例可看出概率论是如何应用在日常工作中的。

购买地址item.jd.com/1109412486.


第二阶段:数据分析

本阶段需要学习概率统计、拓扑学、数值逼近、泛函分析、数学建模等知识。

学习时重点应该放在从实际数据集出发进行实战操作以更好的理解方法和原理上。推荐以下2本书籍。


1. 利用Python进行数据分析

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-a8a76a885d1c13889a373971f0286e95_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;213&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由基于python语言介绍了numpy ,pandas等库的操作,本书中有大量具体的实践建议,以及大量综合应用方法。由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。

本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

购买地址:item.jd.com/11352441.ht


2. 数据分析 R语言实战

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-249e07e15d35e161bf18ca0e0f387879_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;194&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数★★★☆

推荐理由: 结合R操作介绍了数据分析常用方法,并给出很多案例以备实战模拟。本书侧重于使用R进行数据的处理、整理和分析,重点讲述了R的数据分析流程、算法包的使用以及相关工具的应用。

购买地址item.jd.com/11511540.ht


第三阶段:数据挖掘

学习数据挖掘,需要掌握微积分、线性代数、条件概率(朴素贝叶斯模型)、数据库、编程语言等知识其中,线性分析是数据挖掘中最重要的一个环节。学习时,应着重数学推导原理并结合编程理解掌握各种方法。推荐阅读以下4本书籍。


1. Data Mining, Concepts and Techniques

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-5e56daddfbcaefed132d28e13744b4e6_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;187&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★★

推荐理由:美国伊利诺伊大学香槟分校(UIUC) CS大牛Jiawei Han, Micheline Kamber及 西蒙弗雷泽大学 (SFU)教授Jian Pei合著的数据挖掘经典教科书,必读系列之一。

本书主要是从数据管理和数据计算的角度给大家讲解数据挖掘。该书对数据挖掘基本概念,算法及其相关技术有比较全面的阐述,是国内大多数高校上课指定教材。

购买地址item.jd.com/1098396840.


2. Data Mining, the Textbook

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-58efe815a5c2275a15be0ff870531943_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;224&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★☆

推荐理由:深入浅出介绍数据挖掘方法,是必备的教材。此书探索了数据挖掘的不同方面,从基础知识到复杂的数据类型及其应用。除传统数据挖掘问题之外,它还介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据等。

购买地址item.jd.com/19701426.ht


3. 数据挖掘与R语言实战

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-d8d84429a4a6a0ae04d20a88407e8efb_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;217&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由:数据挖掘的中级书籍,比较简单易懂。偏重于实战,原理比较少,这本书适合急于上手的同学阅读。

本书在介绍各种数据挖掘方法同时,还介绍了R语言操作,并且在有一定R语言的基础上引入了机器学习的几个经典算法。适合日常工作中用到R语言的同学。

购买地址item.jd.com/11790199.ht


4. 数据挖掘与数据化运营实战 思路、方法、技巧与应用

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-5d2ea156e8f7dae1fd0ddf221c71671b_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;219&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由: 诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的书籍。阿里巴巴BI部门数据分析专家卢辉多年数据挖掘应用实践经验结晶,用通俗易懂的“非技术”语言和大量活泼生动的案例展现了数据挖掘与数据化运营的商业实践。

购买地址item.jd.com/11252775.ht


第四阶段:非参数统计

非参数统计是尽可能不对统计模型施加假设的情况下进行统计推断。因其灵活性和普适性而在实践中广泛应用,非常值得学习。

需要的知识包括基础概率论与数理统计、线性回归等统计方法。学习重点应放在统计原理的理解上,最好可以运用基础数学及概率论统计知识进行理论推导。推荐阅读以下2本书籍。


1. All of Nonparametric Statistic

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-8922a9ca0289b3740960dd8bacdaf977_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;233&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★★

推荐理由:Larry Wasserman同一系列的另一本书,非参数统计概要。这本书主要面向统计学硕士或博士,它也适合于想要快速学习现代非参数方法的研究人员。

这本书要求掌握分布理论,高等代数和数学分析。对于非参数方法包括非参数回归,非参数密度估计,小波算法等都有介绍。感兴趣的同学可以到CMU Larry Wasserman的网站上找到课程视频和资料。

购买地址item.jd.com/1104426803.


2. Applied Nonparametric Statistical Methods

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-0f40f2438d00aa404df8d6369a0ec580_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;228&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★

推荐理由:应用非参数统计方法这本书中有许多应用介绍,对非参数统计的应用感兴趣的同学可以看这一本。

购买地址item.jd.com/1197472932.


第五阶段:机器学习

本阶段需要熟练掌握统计方法。学习时,既要能够熟练进行数学理论推导,同时结合数据集进行实战操作,灵活掌握各种机器学习方法。推荐阅读以下6本书籍。


1. The Elements of Statistical Learning

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-ada694420b64b9924996b56e01343bb0_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;226&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★★

推荐理由:斯坦福三位统计鼻祖级教授著作。本书对机器学习各领域的方法都有详尽的介绍,有电子版,网上也提供一些数据集,可以配合着R操作来学习,熟练R的同时,掌握各种机器学习方法。

学习时,可以考虑将重要方法进行数学推导以理解原理,并结合数据集进行R编程操作。

购买地址item.jd.com/1132486430.


2. 机器学习

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-b3c06403bc0416d84d55c49e20678d80_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;166&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★☆

推荐理由:作者周志华教授是人工智能大牛,也是国际上人工智能奖项“大满贯” Fellow华人第一人。这是一本非常值得推荐给机器学习入门者梳理知识以及机器学习从业者的书。

书本的印刷质量不错,语言表达与思维逻辑也很清晰,内容涵盖了绝大多数热门算法与模型。此书的结构基本与《elements of statistical learning》相同,不想看英文版的同学可以看这本。

购买地址item.jd.com/11867803.ht


3. 统计学习方法

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-f4396039800a83b7417751a9a9a096dc_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;219&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★☆

推荐理由:李航老师力作,李航老师曾任微软亚洲研究院高级研究员及主任研究员,现任华为诺亚方舟实验室首席科学家。

这本书以干货为主,书中没有多余的例子与解释,很多都是从问题定义直接开始,到算法,到分析。书中例子、推导、算法相对比较难,很有必要仔细阅读

购买地址item.jd.com/10975302.ht


4. Pattern Recognition and machine learning

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-927a46370b27f09c1361c4c2c55846ed_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;205&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由:模式识别的经典教材,讲得比较浅显,算是机器学习的初级书籍。这本书较轻为全面介绍了模式识别和机器学习领域,需要掌握一些多变量微积分和基本线性代数的知识。

本书有大段描述性文字,常用文字代替数学公式去描述原理。大家可以自己尝试数学推导。

购买地址item.jd.com/1104430003.


5. Python语言构建机器学习系统

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-17afaf559020b8ada8f221ba117cc81a_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;182&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由: 机器学习的初级书籍,对机器学习中的聚类、分类、降维等热点话题进行了介绍,并介绍了相应的python操作。本书可以帮助你进入应对正式而真实的数据集项目环节,运用建模技术,创建推荐系统,并介绍了主题建模、篮子分析和云计算等高级主题。这些内容将拓展你的能力,让你能够创建大型复杂系统。

购买地址item.jd.com/10253243790


6. 统计学习导论 基于R应用

&amp;lt;img src=&quot;https://pic2.zhimg.com/v2-1a84f2f3f210f06033d8ecd8992375c9_b.jpg&quot; data-rawwidth=&quot;150&quot; data-rawheight=&quot;222&quot; class=&quot;content_image&quot; width=&quot;150&quot;&amp;gt;

推荐指数:★★★★

推荐理由: 统计学习的入门书,通俗易懂,号称是ESL的入门版。本书介绍了机器学习的方法,R的例子讲的也很实用,并给出很多R程序,适合有编程需求的同学。

购买地址item.jd.com/10378098942


最后强调一点,所有的学习重点最终应该放到实践上。不论是数学推导促进理论的理解,还是编程对数据集进行分析和挖掘以应用理论,动手是非常重要的,需要在实践中总结经验并完善加深自己对各种统计理论的理解。

祝大家学习愉快!


感谢京东金融量化运营部提供回答,答者是位死活不想暴露名字的芝加哥大学统计系博士。

有youtube常青藤名教授的免费上课视频,为何不先睹为快???一个教授给你上课的时候,肯定是会推荐书给你的。当然了,翻墙是楼主suppose你们需要拥有的基本生存技能。
先放链接再阐述我对数据科学进击之路的理解。(注:以下视频是楼主自己在学习的,因此多为graduate course,仅作演示目的)
1,Machine Learning by Prof. Nando de Freitas, 此视频是其在UBC时13年所录,后来跳槽去牛津计算机系了。
youtube.com/playlist?

2,Deep learning at Oxford 2015 by Prof. Nando de Freitas, 跳槽到牛津所录。
youtube.com/playlist?

3,Probabilistic Graphical Models by Daphne Koller, 斯坦福大学计算机系教授
youtube.com/playlist?

简单的说,原理和基础都在数学这边。
线性代数(矩阵表示和运算)是基础中的基础,微积分(求导,极限);
数据处理当然需要编程了,因此C/C++/Python任选一门,数据结构可以学学,只是让你编程更顺手,但是编程不是数据处理的核心。
Mid-level的课程,概率论+统计(很多数据分析基于统计模型),线性规划+凸优化(统计到最后也还是求解一个优化问题,当然也有纯优化模型不用统计模型的)
再高阶的课程,就是些研究生的课程了,就比较specific了,可以看你做的项目再选择选修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其实机器学习,学的都是一些统计和优化),图像处理,deep learning, 神经网络,等等等等。

学到Mid-level,然后做几个实际项目,就能上手咯。要读Phd搞科研,才上高阶的。
至于书,没有特别推荐的,但是建议看英文原版。或者,直接翻墙Youtube看视频课程,很多国际知名教授都很无私地把自己上课的视频放在youtube上免费学习。

比如,海德堡HCI 的Fred,图像处理课程:
youtube.com/playlist?

更详细回答,参见:
想学数据分析需要学哪些课程? - Ruobing Shen 的回答

关于我对最优化理论在咨询行业的应用,参见

Data Science/Analytics 出身,可以在咨询行业做些什么? - Ruobing Shen 的回答

最好按照惯例广告一波:

欧洲、北美、全球留学及数据科学深度私人定制咨询,从此DIY - Ruobing Shen的文章 - 知乎专栏

2本书让我明白什么是、如何做数据挖掘。
1、数据挖掘概念与技术。从基础上,讲解各种算法与原理。
2、数据挖掘与数据化运营实战。以一个阿里巴巴数据运营从业人员的角度,讲解电子商务中,如何利用数据进行数据化运营来创造价值。
PS:不要去收藏一长串的书单,只会让你觉得无助与恐惧。认真看完这两本书后,你自然会明确下一步自己需要看的是什么书。
数据分析方面,推荐一本书吧:大前研一写的《思考的技术》。
一切分析(包含数据分析)的目标,肯定是为了展示、定位和解决问题,而发现问题的过程,要遵循严格的逻辑(业务逻辑、商业逻辑等)。大前的这本书不会教你数据分析的“术”,但是会教你解决问题的逻辑。而这是数据分析的出发点。
如果时间有限,这本书可以只看前半部分。
给自己打个广告吧,结合自己多年工作经验写的!
《从1开始 数据分析师成长之路》
相较于通俗读物类的数据分析更加专业化,也不像舶来品那样不接地气。
书本小样:pan.baidu.com/s/1jIymBK
各大电商网站均有销售。
&amp;amp;lt;img src=&quot;https://pic3.zhimg.com/v2-d0cd6bde7843b4a4154eeb6bf35604de_b.jpg&quot; data-rawwidth=&quot;318&quot; data-rawheight=&quot;430&quot; class=&quot;content_image&quot; width=&quot;318&quot;&amp;amp;gt;

最近整理的关于数据分析师的工作内容及知识体系:知乎专栏



&amp;amp;lt;img src=&quot;https://pic3.zhimg.com/v2-26a93b91a107b7046172a30e73a4b982_b.jpg&quot; data-rawwidth=&quot;1280&quot; data-rawheight=&quot;720&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1280&quot; data-original=&quot;https://pic3.zhimg.com/v2-26a93b91a107b7046172a30e73a4b982_r.jpg&quot;&amp;amp;gt; &amp;amp;lt;img src=&quot;https://pic3.zhimg.com/v2-8a067df621245c9faea885fa8bf2d4ea_b.jpg&quot; data-rawwidth=&quot;1280&quot; data-rawheight=&quot;720&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1280&quot; data-original=&quot;https://pic3.zhimg.com/v2-8a067df621245c9faea885fa8bf2d4ea_r.jpg&quot;&amp;amp;gt; &amp;amp;lt;img src=&quot;https://pic3.zhimg.com/v2-f60b0e5fe40b994bcb13a4243699f656_b.jpg&quot; data-rawwidth=&quot;1280&quot; data-rawheight=&quot;720&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1280&quot; data-original=&quot;https://pic3.zhimg.com/v2-f60b0e5fe40b994bcb13a4243699f656_r.jpg&quot;&amp;amp;gt;

我是最近三年在美国进入到数据分析领域的。这个领域变化很快,我来推荐几本目前在美国比较火的、自己看过也受益匪浅的。

如果是Business背景想入门数据分析我推荐Data Science For Business。

如果是通过R来学数据分析的话 推荐 R in Action和Practical Data Science with R.

推荐的书籍太多往往会沉入书海,推荐一些价值比较高的书。

1、侧重于业务性的数据分析:

《谁说菜鸟不会数据分析》、《数据化管理:洞悉零售及电子商务运营》

2、侧重于网站分析的数据分析:

《流量的秘密》、《网站数据分析实战》

3、侧重于数据挖掘的书籍:

《数据挖掘与数据化运营实战 思路、方法》、《数据挖掘 概念与技术》

4、侧重于python/R的工具书:

《使用python进行数据分析》、《R语言实战》

5、侧重于数据可视化的书:

《excel图表之道》、《R数据可视化手册》

腾讯大数据知乎平台自开通以来,不时获邀回答关于大数据入门和大数据书籍、工具的推荐等问题,我们也非常希望与大数据爱好者们分享一些经验和干货。
本次我们邀请到了一位腾讯内部资深数据分析师,他将会为大数据入门者推荐相关书籍,同时也会系统地为大家讲解数据分析师需要掌握的相关知识技能,最后分享一些他作为数据分析师的个人心得,希望能对大家在学习数据分析的过程中有所帮助。


一、数据分析师有哪些要求?

下图是数据分析师认证的基本内容(cda.pinggu.org/view/3.h),1至3级,从低到高。概括起来四点要求:

&amp;lt;img src=&quot;https://pic4.zhimg.com/v2-fdc7d7e0d7a8ffe2d7f88a69141861fb_b.png&quot; data-rawwidth=&quot;745&quot; data-rawheight=&quot;671&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;745&quot; data-original=&quot;https://pic4.zhimg.com/v2-fdc7d7e0d7a8ffe2d7f88a69141861fb_r.png&quot;&amp;gt;

1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。

2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PPT、word、脑图)等

3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解,因为数据分析的出发点就是要解决商业的问题,只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求。

4、汇报和图表展现能力。这是临门一脚,做得再好的分析模型,如果不能很好地展示给领导和客户,成效就大打折扣,也会影响到数据分析师的职业晋升。


二、请把数据分析作为一种能力来培养

从广义来说,现在大多数的工作都需要用到分析能力,特别是数据化运营理念深入的今天,像BAT这样的公司强调全员参与数据化运营,所以,把它作为一种能力培训,将会让你终生受益。


三、从数据分析的四个步骤来看清数据分析师需具备的能力和知识:

数据分析的四个步骤(这有别于数据挖掘流程:商业理解、数据理解、数据准备、模型搭建、模型评估、模型部署),是从更宏观地展示数据分析的过程:获取数据、处理数据、分析数据、呈现数据。


(一) 获取数据

获取数据的前提是对商业问题的理解,把商业问题转化成数据问题,要通过现象发现本质,确定从哪些纬度来分析问题,界定问题后,进行数据的采集。此环节,需要数据分析师具备结构化的思维和对商业问题的理解能力。

推荐书籍:《金字塔原理》、麦肯锡三部曲:《麦肯锡意识》、《麦肯锡工具》、《麦肯锡方法》

工具:思维导图、mindmanager软件


(二) 处理数据

一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率,所以尽量学习最新最有效的处理工具,以下介绍的是最传统的,但却很有效率的工具:

&amp;lt;img src=&quot;https://pic1.zhimg.com/v2-6b1682457119d61269e2aebd62d4c3f8_b.png&quot; data-rawwidth=&quot;632&quot; data-rawheight=&quot;277&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;632&quot; data-original=&quot;https://pic1.zhimg.com/v2-6b1682457119d61269e2aebd62d4c3f8_r.png&quot;&amp;gt;

Excel:日常在做通报、报告和抽样分析中经常用到,其图表功能很强大,处理10万级别的数据很轻松。

UltraEdit:文本工具,比TXT工具好用,打开和运行速度都比较快。

ACCESS:桌面数据库,主要是用于日常的抽样分析(做全量统计分析,消耗资源和时间较多,通常分析师会随机抽取部分数据进行分析),使用SQL语言,处理100万级别的数据还是很快捷。

Oracle、SQL Sever:处理千万级别的数据需要用到这两类数据库。

当然,在自己能力和时间允许的情况下,学习新流行的分布式数据库及提升自身的编程能力,对未来的职业发展也有很大帮助。


分析软件主要推荐:

SPSS系列:老牌的统计分析软件,SPSS Statistics(偏统计功能、市场研究)、SPSS Modeler(偏数据挖掘),不用编程,易学。

SAS:老牌经典挖掘软件,需要编程。

R:开源软件,新流行,对非结构化数据处理效率上更高,需编程。

随着文本挖掘技术进一步发展,对非结构化数据的分析需求也越来越大,需要进一步关注文本挖掘工具的使用。


(三) 分析数据

分析数据,需要用到各类的模型,包括关联规则、聚类、分类、预测模型等,其中一个最重要的思想是对比,任何的数据需要在参照系下进行对比,结论才有意义。

推荐书籍:

1、《数据挖掘与数据化运营实战,思路、方法、技巧与应用》,卢辉著,机械出版社。这本书是近年国内写得最好的,务必把它当作圣经一样来读。

2、《谁说菜鸟不会数据分析(入门篇)》和《谁说菜鸟不会数据分析(工具篇)》,张文霖等编著。属于入门级的书,适合初学者。

3、《统计学》第五版,贾俊平等编著,中国人民大学出版社。比较好的一本统计学的书。

4、《数据挖掘导论》完整版,[美]Pang-Ning Tan等著,范明等翻译,人民邮电出版社。

5、《数据挖掘概念与技术》,Jiawei Han等著,范明等翻译,机械工业出版社。这本书相对难一些。

6、《市场研究定量分析方法与应用》,简明等编著,中国人民大学出版社。

7、《问卷统计分析实务---SPSS操作与应用》,吴明隆著,重庆大学出版社。在市场调查领域比较出名的一本书,对问卷调查数据分析讲解比较详细。


(四) 呈现数据

该部分需要把数据结果进行有效的呈现和演讲汇报,需要用到金字塔原理、图表及PPT、word的呈现,培养良好的演讲能力。

推荐书籍:

1、《说服力让你的PPT会说话》,张志等编著,人民邮电出版社。

2、《别告诉我你懂ppt》加强版,李治著,北京大学出版社。

3、《用图表说话》,基恩。泽拉兹尼著,马晓路等翻译,清华大学出版社。


(五) 其他的知识结构

数据分析师除了具备数学知识外,还要具备市场研究、营销管理、心理学、行为学、产品运营、互联网、大数据等方面的知识,需要构建完整广泛的知识体系,才能支撑解决日常遇到的不同类型的商业问题。

推荐书籍:

1、《消费者行为学》第10版,希夫曼等人著,江林等翻译,中国人民大学出版社,现在应该更新到更高的版本。

2、《怪诞行为学》升级版,艾瑞里著,赵德亮等翻译,中信出版社

3、《营销管理》,科特勒等著,梅清豪翻译,格致出版社和上海人民出版社联合出版

4、《互联网思维---独孤九剑》,赵大伟主编,机械出版社

5、《大数据时代---生活、工作与思维的大变革》,舍恩伯格等著,周涛等翻译,浙江人民出版社


四、关于数据分析师的职业发展:

1、数据分析师通常分两类,分工不同,但各有优势。

一类是在专门的挖掘团队里面从事数据挖掘和分析工作的。如果你能在这类专业团队学习成长,那是幸运的,但进入这类团队的门槛较高,需要扎实的数据挖掘知识、挖掘工具应用经验和编程能力。该类分析师更偏向技术线条,未来的职业通道可能走专家的技术路线。

另一类是下沉到各业务团队或者运营部门的数据分析师,成为业务团队的一员。他们工作是支撑业务运营,包括日常业务的异常监控、客户和市场研究、参与产品开发、建立数据模型提升运营效率等。该类型分析师偏向产品和运营,可以转向做运营和产品。

2、数据分析师的理想行业在互联网,但条条大道通罗马,走合适你的路线。

从行业的角度来看:

1)互联网行业是数据分析应用最广的行业,其中的电商企业,更是目前最火的,而且企业也更重视数据分析的价值,是数据分析师理想的成长平台。

2)其次是咨询公司(比如专门的数据挖掘公司Teradata、尼尔森等市场研究公司),他们需要数据分析人才,而且相对来说,数据分析师在咨询公司成长的速度更快,专业也会更全面。

3)再次是金融行业,比如银行和证券等行业,该行业对数据分析的依赖需求,越来越大。

4)最后是电信行业(中国移动、联通和电信),它们拥有海量的数据,在严峻的竞争下,也越来越重视数据分析,但进入这些公司的门槛比较高。


五、什么人适合学习数据分析?

这个问题的答案跟“什么人适合学功夫”一样,毫无疑问,功夫是适合任何人学习的(排除心术不正的人),因为能够强身健体。而功夫的成效,要看习武者的修炼深浅。常常有人争论,是咏春拳厉害,还是散打厉害,其实是颠倒了因果,应该看哪个人练习得比较好,流派之间没有高低,只有人修炼的厚薄。

实际上,问题的潜台词是“什么人学习数据分析,会更容易取得成功(比如职业成功)”,这个要视乎你的兴趣、付出和机遇。但要做到出类拔萃,除了上面三点,还需要一点天赋,这里的机遇是指你遇到的职业发展平台、商业环境、导师和同事。借用管理大师德鲁克的话“管理是可以习得的”,管理并非是天生的,而数据分析能力,也可以后天提升。或许做到优秀,只需要你更加的努力+兴趣,而这个努力的过程,也包括你寻找机遇的部分。


六、最后的建议

请再次问问自己,是否真的喜欢数据分析,能否忍受处理数据时的寂寞?如果是,那就开始学习,给你几条建议。

1、把数据分析作为一种能力培养,让自己在现在的团队中展现出良好的数据分析能力,为你以后内部转岗做好准备。如果内部转岗不成,你可以考虑跳槽到我之前分析的行业中,但我强烈建议你还是需要把系统开发的编程能力学习好,并且对商业智能系统(BI和CRM)有一定了解,这也许是应聘数据分析的优势。如果没有数据分析经验去应聘,相对会难一些,用人单位会考你统计和数据挖掘模型方面的知识,以及工具使用情况。

2、在公司里找一些有共同爱好的同事一起学习数据分析,平时多请教数据分析做得好的同事,它山之石,可以攻玉。

3、扎实学好一、两门数据挖掘软件,基于你有编程的基础,建议你可以学SAS或者R,同时辅助学习SPSS Modeler。如果没编程基础或者希望短期能够取得成效,那也可以先学习SPSS。SAS+SPSS,基本能够满足很大部分企业的需求,三者都会,那更好。

4、要了解公司是如何运营,产品是如何开发的,如何做客户研究锁定客户需求,如何做产品营销,这些需要不断工作积累和广泛的阅读。

5、开始学习时,先读几本有趣的数据分析类的书(如《谁说菜鸟不会数据分析》),然后系统学习一下统计知识(建议教材用《统计学》第五版,贾俊平等编著),接着网上快速搜集软件操作视频和案例,然后逐个分析模型进行学习和总结归纳,学习最好能够结合实际工作中的问题进行。

6、学习到一定程度时,参加一些数据分析师的职业认证,进一步梳理知识结构,同时认识一些志同道合的朋友和老师,也是对你有很大帮助。


欢迎关注其个人微信公众号:数据的力量(微信号:shujudeliliang)

推荐一本书《Python Machine Learning》,目前已经看完了chapter1-7、chapter10。全书共13个章节。--------------------------------------------------------------------------------------------------------------------------------该书主要使用sklearn的class来训练、评估算法以及调整参数。使用sklearn实现算法前,作者多会自己写个简单的算法实现帮助理解。

该书源代码都是用Python语言写的,因此需要一定的Python基础,另外算法的训练数据多是矩阵形式的,需要对线性代数有一定的了解,如果之前就有Matlab矩阵运算的基础就更好了。

该书另一大特色就是数据的可视化,使用matplotlib库进行原始数据的探索、learning curve以及validation curve的可视化、模型评估中ROC曲线的可视化、residual(残差)的可视化等等。各章节的简单介绍(请尊重作者的劳动成果,购买正版。)chapter 1. Giving Computers the Ability to Learn from Data简单介绍了三种不同类型的机器学习:使用supervised learning进行预测、使用reinforcement learning解决交互问题以及使用unsupervised learning发现隐藏的数据结构,介绍了数据挖掘基本的术语和符号以及构建机器学习系统的roadmap。chapter 2. Training Machine Learning Algorithms for Classification介绍了Artificial neurons、perceptron(局限性比较大的感知机算法)和Adaptive linear neurons算法(使用gradient descent也就是梯度下降来最小化cost function)以及具体的算法实现。chapter 3. A Tour of Machine Learning Classifiers Using Scikit-learn介绍了各种分类算法以及具体的实现:算法包括Logistic regression、support vector machines、kernel support vector machines(用来解决非线性问题)、decision tree learning(CART)、K-nearest neighbors。其中作者还穿插介绍了各算法的优缺点。Chapter 4. Building Good Training Sets – Data Preprocessing介绍了如何进行数据的预处理,包括缺失值处理,分类数据的处理、样本数据的拆分(按一定比例随机拆分为training set和test set)、基于min-max scaling以及 standardize的features scaling(特征缩放)、基于L1 regularization spare matrix以及Sequential backward selection(SBS)的 feature selecting(特征的取舍)、使用random forest来评估各feature的重要程度Chapter 5. Compressing Data via Dimensionality Reduction介绍了使用PCA(Principal component analysis)以及LDA(linear discriminant analysis)来进行降维,使用kernel pca来进行非线性的映射。要去搬砖了。待续。--------------------------------------------------------------------------------------------------------------------------------关于作者Sebastian Raschka:Sebastian Raschka is a PhD student at Michigan State University, who develops new computational methods in the field of computational biology. He has been ranked as the number one most influential data scientist on GitHub by Analytics Vidhya. He has many years of experience with coding in Python and he has conducted several seminars on the practical applications of data science and machine learning. Talking and writing about data science, machine learning, and Python really motivated Sebastian to write this book in order to help people develop data-driven solutions without necessarily needing to have a machine learning background.该书的亚马逊网站链接:amazon.com/Python-Machiamazon.cn/dp/B00YSILNL0

亚马逊中国上这本书有kindle电子书版的,100多块,电脑下个kindle软件就可以看了,kindle软件能做笔记,划重点。纸质书要500多块。

美国亚马逊该书的截图如下(外文书可以先到亚马逊上看看评价):

&amp;lt;img src=&quot;https://pic3.zhimg.com/v2-155323a8d802d66f1d103c8c515c2b6a_b.jpg&quot; class=&quot;content_image&quot;&amp;gt;

--------------------------------------------------------------------------------------------------------------------------------需要的软件支持:AnacondaAnaconda下载地址:continuum.io/downloads, 外国网站下载会比较慢,可以将下载链接复制后在迅雷离线中打开即可快速下载。下载安装Anaconda后,会自动安装好Spyder,可以用来运行python程序。Anaconda已经自动安装了pandas、sklearn、matplotlib、 numpy、scipy之类的数据挖掘包。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/564672
推荐阅读
相关标签
  

闽ICP备14008679号