赞
踩
一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。
至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:
Association Analysis:
Apriori
Classification:
Nearest-Neighbor
Naive Bayesian
Clustering:
K-means
Canopy
Fuzzy K-means
Others:
PageRank
此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:
接下来还要实现一些算法,包括:
Neural Network
SVM
Logistic regression
Graph Mining
Cluster Evaluation
Sequence Patterns Mining
等。
这里把Mahout Goal post出来,做个对比,同时也知道我们分析:
High-performance, distributed matrix (both sparse and dense)
Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
Naive Bayes classification and Bayesian network
Backpropogation (Neural Network)
Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
Locally-Weighted Linear Regression (LWLR) and logistic regression
Support Vector Machine
Gaussian Discriminant Analysis
Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis
这其中有些我们已经实现了,不过还要继续努力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。