当前位置:   article > 正文

基于云计算的数据挖掘

基于云计算的数据挖掘

    一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。

 

    至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:

 

Association Analysis:

    Apriori

Classification:

    Nearest-Neighbor

    Naive Bayesian

Clustering:

    K-means

    Canopy

    Fuzzy K-means

Others:

    PageRank

 

   此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:

个人中心网络

 

接下来还要实现一些算法,包括:

    Neural Network

    SVM

    Logistic regression

    Graph Mining

    Cluster Evaluation

    Sequence Patterns Mining

等。

 

这里把Mahout Goal post出来,做个对比,同时也知道我们分析:

    High-performance, distributed matrix (both sparse and dense)
    Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
    Naive Bayes classification and Bayesian network
    Backpropogation (Neural Network)
    Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
    Locally-Weighted Linear Regression (LWLR) and logistic regression
    Support Vector Machine
    Gaussian Discriminant Analysis
    Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis

这其中有些我们已经实现了,不过还要继续努力。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/1009351
推荐阅读
相关标签
  

闽ICP备14008679号