赞
踩
数据科学本身并不是一个独立的学科,而一个交叉学科。其混合了数学/统计学,计算机科学和商业知识。其创立的本意,就是在计算机的帮助下,使用统计/数学知识去处理数据从而获得商业的洞见。
从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。
例如:y = B0 + B1 * x
我们将在给定输入 x 的情况下预测 y,线性回归学习算法的目标是找到系数 B0 和 B1 的值,使得更好的拟合样本的结果。
其结果y是由多个输入值x,通过加权而来的。
更倾向于解决二分类问题。
逻辑回归类似于线性回归,其目标是找到加权每个输入变量的系数值。与线性回归不同,输出的预测是使用称为逻辑函数的非线性函数转换的。
逻辑回归会将任何输入值映射到**(0,1)**上。
主要过程
1,为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K
2,计算未知实例与所有已知实例的距离。
3,选择最近k个已知实例
4,根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别
常用于分类问题
决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。
例如:
朴素贝叶斯(Naive Bayes)是一种基于概率理论的分类算法,以贝叶斯理论为理论基础,通过计算样本归属于不同类别的概率来进行分类,是一种经典的分类算法。朴素贝叶斯是贝叶斯分类器里的一种方法,之所以称它朴素,原因在于它采用了特征条件全部独立的假设。
思想: 对于给定的待分类样本, 通过学习到的模型计算后验概率分布, 即: 在此样本出现(X)的条件下各个label出现的概率, 将后验概率最大的类作为样本所属的类别, 后验概率根据贝叶斯定理计算.
聚类,简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。
因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分,且对象之间的相似度是基于对象间的距离来计算的。
核心:找到不同类别之间的分类面,使得两类样本尽量落在面的两边,且离分类面尽量远。
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。
其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。
概述:
数据可视化在量化分析当中是一个非常关键的辅助工具,往往我们需要通过可视化技术,对我们的数据进行更清晰的展示,这样也能帮助我们理解交易、理解数据。通过数据的可视化也可以更快速的发现量化投资中的一些问题,更有利于分析并解决它们。接下来我们主要使用的可视化工具包叫做——Matplotlib,它是基于Numpy和tkinter二次开发的,它是一个强大的Python绘图和数据可视化的工具包。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。