当前位置:   article > 正文

聚类_聚类 去重

聚类 去重


前面做过一个神经网络的分类器 


现在有一些数据需要做聚类处理。 


那什么叫做聚类呢 跟分类有什么区别。


分类:明确知道类别,然后把数据归类。

聚类:你不知道类别,但你想把这些数据分成N类,根据某种算法把数据进行分组,相似或相近的自动归到一组中。(一般用k均值聚类算法)



聚类与分类相比较:

分类:实例式学习,分类前明确各个类别的信息,并可以直接断言每个元素映射到一个类别;

聚类:无监督学习,在聚类前不知道类别甚至不给定类别数量,不依赖预定义的类和类标号。


聚类的应用:

在许多时候分类条件不满足,尤其是处理海量数据时,如果通过预处理使数据满足分类算法的要求,代价巨大,应考虑聚类算法。

聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

目前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域。

 

聚类算法的局限:

(1)要求数据分离度好。对相互渗透的类无法得到统一的结果。

(2)线性相关。聚类方法分析仅是简单的一对一的关系。忽视了生物系统多因素和非线性的特点。


K均值聚类算法

算法思想:

给定一个有N个元素的集合,划分为K个簇,每一个簇就代表一个聚类,K<N。而且这K个簇满足下列条件:

(1) 每一个簇至少包含一个元素;

(2) 每一个元素属于且仅属于一个簇。

对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次优化,即同一分组中的元素相异度降低,而不同分组中的元素相异度升高。

 

只要去重后集合的元素仍大于k时 才能进行聚类

 

算法过程:

1、预处理: 数据规格化;

(1).剔除异常数据  剔除异常数据的方法可考虑均值-标准差法


(2).(具体根据情况判断是否需要归一化)

归一化:

当某个属性的取值跨度远大于其他属性时,不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:

 x'=x-集合最小值/集合最大值-集合最小值


2、从D中随机取k个元素,作为k个簇的各自的中心。

3、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。

4、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。

5、将D中全部元素按照新的中心重新聚类。

6、重复第4步,直到聚类结果收敛到不再变化。

7、将结果输出。




我找了一些资料  发现 聚类的运用 一般有三种: 数值聚类(例如成绩聚类)   文本的聚类    坐标点的聚类


数值聚类:

数值聚类是比较简单的  因为它们能直接求均值而不用做其他的一些处理 

步骤是:

一: 随机产生是三个不重复的数值 作为 质心 

二:计算每一个数值到质心的距离  公式 :     Math.Sqrt((x-质心)*(x-质心))   数值减去质心平方后开方

三:把数值归入到距离最小的 质心所代表的类中 

四:计算每个类的均值作为质心,跟旧的质心做对比,如果不相等,则从步骤二开始 迭代。 直到质心值不再变化,这样类就分好了。


下面记录几段比较重要的代码;

1.生成不重复的随机数值

  1. /// <summary>
  2. /// get different random
  3. /// </summary>
  4. /// <param name="arrNum"></param>
  5. /// <param name="tmp"></param>
  6. /// <param name="minValue"></param>
  7. /// <param name="maxValue"></param>
  8. /// <param name="ra"></param>
  9. /// <returns></returns>
  10. public int[] getNum(int count, int total)
  11. {
  12. int[] index = new int[total];
  13. for (int i = 0; i < total; i++)
  14. {
  15. index[i] = i;
  16. }
  17. Random r = new Random();
  18. //用来保存随机生成的不重复的count个数
  19. int[] result = new int[count];
  20. //int site = total;//设置下限
  21. int id;
  22. for (int j = 0; j < count; j++)
  23. {
  24. id = r.Next(0, total - 1);
  25. //在随机位置取出一个数,保存到结果数组
  26. result[j] = index[id];
  27. //最后一个数复制到当前位置
  28. index[id] = index[total - 1];
  29. //位置的下限减少一
  30. total--;
  31. }
  32. return result;
  33. }

判断新旧质心是否相等

  1. /// <summary>
  2. /// judge the value of center
  3. /// </summary>
  4. /// <param name="center"></param>
  5. /// <param name="newcenter"></param>
  6. /// <param name="ok"></param>
  7. /// <returns></returns>
  8. private static bool judge(double[] center, double[] newcenter, bool ok)
  9. {
  10. int count = 0;
  11. for (int i = 0; i < newcenter.Length; i++)
  12. {
  13. if (center[i] == newcenter[i])
  14. { count++; }
  15. }
  16. if (count == newcenter.Length)
  17. {
  18. ok = true;
  19. }
  20. return ok;
  21. }


当去重后集合的元素仍大于k时 聚类的过程 迭代 用一个标志 和while()

  1. if (price_all.Count >= k)
  2. {
  3. //cluster the list building element
  4. Random Rd = new Random(); //make a random example
  5. double[] center = new double[k];
  6. double[] oldcenter = new double[k];
  7. int[] ran = new int[k];
  8. int temp_c = price_all.Count;
  9. ran = getNum(k, temp_c);
  10. for (int i = 0; i < center.Length; i++)
  11. {
  12. center[i] = price_all[ran[i]];
  13. }
  14. for (int i = 0; i < oldcenter.Length; i++)
  15. {
  16. oldcenter[i] = 0.0;
  17. }
  18. bool ok = false;
  19. ok = judge(center, oldcenter, ok);
  20. int ireation = 0;
  21. while (!ok)
  22. {
  23. for (int i = 0; i < building_element.Count; i++)
  24. {
  25. //repeat cluster
  26. double temp_price = building_element[i].get_price();
  27. double[] distance = new double[k];
  28. for (int j = 0; j < center.Length; j++)
  29. {
  30. double v = temp_price - center[j];
  31. distance[j] = Math.Sqrt(v * v); // distance
  32. }
  33. //get the min distance
  34. double temp_min = 999999999999999999;
  35. int min_index = 999;
  36. for (int j = 0; j < center.Length; j++)
  37. {
  38. if (distance[j] <= temp_min)
  39. {
  40. temp_min = distance[j];
  41. min_index = j + 1;
  42. }
  43. }
  44. building_element[i].set_type(min_index);
  45. }
  46. for (int n = 0; n < k; n++)
  47. {
  48. oldcenter[n] = center[n];
  49. }
  50. //get averange to be center
  51. double[] total = new double[k];
  52. int[] element_countoftype = new int[k];
  53. for (int n = 0; n < k; n++)
  54. {
  55. for (int i = 0; i < building_element.Count; i++)
  56. {
  57. if (building_element[i].get_type() == n + 1)
  58. {
  59. total[n] += building_element[i].get_price();
  60. element_countoftype[n]++;
  61. }
  62. }
  63. }
  64. int count_no_zero = 0;
  65. for (int n = 0; n < k; n++)
  66. {
  67. if (total[n] != 0.0)
  68. {
  69. count_no_zero++;
  70. }
  71. }
  72. if (count_no_zero == k)
  73. {
  74. for (int n = 0; n < k; n++)
  75. {
  76. center[n] = total[n] / element_countoftype[n];
  77. }
  78. }
  79. else
  80. {
  81. ran = new int[k];
  82. temp_c = price_all.Count;
  83. ran = getNum(k, temp_c);
  84. for (int i = 0; i < center.Length; i++)
  85. {
  86. center[i] = price_all[ran[i]];
  87. }
  88. }
  89. ok = judge(center, oldcenter, ok);
  90. ireation++;
  91. this.Invoke(new setStatusDelegate(setStatus), building_name_all[m], count, ireation);
  92. }
  93. }



文本聚类:

文本分类跟数值不同在于 要先对文本进行分词,并用TFIDF计算它们的权重 然后用权重向量进行计算。

思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准的k-means算法就可以实现文本聚类了。


完整项目下载:

http://download.csdn.net/detail/q383965374/5960053



下面是一个控制台聚类器的代码:

Program.cs

  1. using System;
  2. using System.Collections.Generic;
  3. using System.IO;
  4. using System.Text;
  5. using WawaSoft.Search.Common;
  6. namespace WawaSoft.Search.Test
  7. {
  8. class Program
  9. {
  10. static void Main(string[] args)
  11. {
  12. //1、获取文档输入
  13. string[] docs = getInputDocs("input.txt");
  14. if (docs.Length < 1)
  15. {
  16. Console.WriteLine("没有文档输入");
  17. Console.Read();
  18. return;
  19. }
  20. //2、初始化TFIDF测量器,用来生产每个文档的TFIDF权重
  21. TFIDFMeasure tf = new TFIDFMeasure(docs, new Tokeniser());
  22. int K = 3; //聚成3个聚类
  23. //3、生成k-means的输入数据,是一个联合数组,第一维表示文档个数,
  24. //第二维表示所有文档分出来的所有词
  25. double[][] data = new double[docs.Length][];
  26. int docCount = docs.Length; //文档个数
  27. int dimension = tf.NumTerms;//所有词的数目
  28. for (int i = 0; i < docCount; i++)
  29. {
  30. for (int j = 0; j < dimension; j++)
  31. {
  32. data[i] = tf.GetTermVector2(i); //获取第i个文档的TFIDF权重向量
  33. }
  34. }
  35. //4、初始化k-means算法,第一个参数表示输入数据,第二个参数表示要聚成几个类
  36. WawaKMeans kmeans = new WawaKMeans(data, K);
  37. //5、开始迭代
  38. kmeans.Start();
  39. //6、获取聚类结果并输出
  40. WawaCluster[] clusters = kmeans.Clusters;
  41. foreach (WawaCluster cluster in clusters)
  42. {
  43. List<int> members = cluster.CurrentMembership;
  44. Console.WriteLine("-----------------");
  45. foreach (int i in members)
  46. {
  47. Console.WriteLine(docs[i]);
  48. }
  49. }
  50. Console.Read();
  51. }
  52. /// <summary>
  53. /// 获取文档输入
  54. /// </summary>
  55. /// <returns></returns>
  56. private static string[] getInputDocs(string file)
  57. {
  58. List<string> ret = new List<string>();
  59. try
  60. {
  61. using (StreamReader sr = new StreamReader(file, Encoding.Default))
  62. {
  63. string temp;
  64. while ((temp = sr.ReadLine()) != null)
  65. {
  66. ret.Add(temp);
  67. }
  68. }
  69. }
  70. catch (Exception ex)
  71. {
  72. Console.WriteLine(ex);
  73. }
  74. return ret.ToArray();
  75. }
  76. }
  77. }


input.txt内容

奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面
股民 要 清楚 自己 的 目的
印花税 之 股民 四季
杭州 股民 放 鞭炮 庆祝 印花税 下调 
残疾 女 青年 入围 奥运 游泳 比赛 创 奥运 历史 两 项 第一
介绍 一 个 ASP.net MVC 系列 教程
在 asp.net 中 实现 观察者 模式 ,或 有 更 好 的 方法 (续)
输 大钱 的 股民 给 我们 启迪
Asp.Net 页面 执行 流程 分析
运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制
asp.net 控件 开发 显示 控件 内容
奥运 票务 网上 成功 订票 后 应 及时 到 银行 代售 网点 付款
某 心理 健康 站 开张 后 首 个 咨询 者 是 位 新 股民
ASP.NET 自定义 控件 复杂 属性 声明 持久性 浅析


ITokeniser.cs

  1. using System.Collections.Generic;
  2. namespace WawaSoft.Search.Common
  3. {
  4. /// <summary>
  5. /// 分词器接口
  6. /// </summary>
  7. public interface ITokeniser
  8. {
  9. IList<string> Partition(string input);
  10. }
  11. }

StopWordsHandler.cs

  1. using System;
  2. using System.Collections;
  3. namespace WawaSoft.Search.Common
  4. {
  5. /// <summary>
  6. /// 用于移除停止词
  7. /// </summary>
  8. public class StopWordsHandler
  9. {
  10. public static string[] stopWordsList=new string[] {"的",
  11. "我们","要","自己","之","将","“","”",",","(",")","后","应","到","某","后",
  12. "个","是","位","新","一","两","在","中","或","有","更","好"
  13. } ;
  14. private static readonly Hashtable _stopwords=null;
  15. public static object AddElement(IDictionary collection,Object key, object newValue)
  16. {
  17. object element = collection[key];
  18. collection[key] = newValue;
  19. return element;
  20. }
  21. public static bool IsStopword(string str)
  22. {
  23. //int index=Array.BinarySearch(stopWordsList, str)
  24. return _stopwords.ContainsKey(str.ToLower());
  25. }
  26. static StopWordsHandler()
  27. {
  28. if (_stopwords == null)
  29. {
  30. _stopwords = new Hashtable();
  31. double dummy = 0;
  32. foreach (string word in stopWordsList)
  33. {
  34. AddElement(_stopwords, word, dummy);
  35. }
  36. }
  37. }
  38. }
  39. }



TermVector.cs

  1. using System;
  2. using System.Collections.Generic;
  3. using System.Text;
  4. namespace WawaSoft.Search.Common
  5. {
  6. public class TermVector
  7. {
  8. public static double ComputeCosineSimilarity(double[] vector1, double[] vector2)
  9. {
  10. if (vector1.Length != vector2.Length)
  11. throw new Exception("DIFER LENGTH");
  12. double denom = (VectorLength(vector1) * VectorLength(vector2));
  13. if (denom == 0D)
  14. return 0D;
  15. else
  16. return (InnerProduct(vector1, vector2) / denom);
  17. }
  18. public static double InnerProduct(double[] vector1, double[] vector2)
  19. {
  20. if (vector1.Length != vector2.Length)
  21. throw new Exception("DIFFER LENGTH ARE NOT ALLOWED");
  22. double result = 0D;
  23. for (int i = 0; i < vector1.Length; i++)
  24. result += vector1[i] * vector2[i];
  25. return result;
  26. }
  27. public static double VectorLength(double[] vector)
  28. {
  29. double sum = 0.0D;
  30. for (int i = 0; i < vector.Length; i++)
  31. sum = sum + (vector[i] * vector[i]);
  32. return (double)Math.Sqrt(sum);
  33. }
  34. }
  35. }


TFIDFMeasure.cs

  1. /*
  2. * tf/idf implementation
  3. * Author: Thanh Dao, thanh.dao@gmx.net
  4. */
  5. using System;
  6. using System.Collections;
  7. using System.Collections.Generic;
  8. using WawaSoft.Search.Common;
  9. namespace WawaSoft.Search.Common
  10. {
  11. /// <summary>
  12. /// Summary description for TF_IDFLib.
  13. /// </summary>
  14. public class TFIDFMeasure
  15. {
  16. private string[] _docs;
  17. private string[][] _ngramDoc;
  18. private int _numDocs=0;
  19. private int _numTerms=0;
  20. private ArrayList _terms;
  21. private int[][] _termFreq;
  22. private float[][] _termWeight;
  23. private int[] _maxTermFreq;
  24. private int[] _docFreq;
  25. ITokeniser _tokenizer = null;
  26. private IDictionary _wordsIndex=new Hashtable() ;
  27. public TFIDFMeasure(string[] documents,ITokeniser tokeniser)
  28. {
  29. _docs=documents;
  30. _numDocs=documents.Length ;
  31. _tokenizer = tokeniser;
  32. MyInit();
  33. }
  34. public int NumTerms
  35. {
  36. get { return _numTerms; }
  37. set { _numTerms = value; }
  38. }
  39. private void GeneratNgramText()
  40. {
  41. }
  42. private ArrayList GenerateTerms(string[] docs)
  43. {
  44. ArrayList uniques=new ArrayList() ;
  45. _ngramDoc=new string[_numDocs][] ;
  46. for (int i=0; i < docs.Length ; i++)
  47. {
  48. IList<string> words=_tokenizer.Partition(docs[i]);
  49. for (int j=0; j < words.Count; j++)
  50. if (!uniques.Contains(words[j]) )
  51. uniques.Add(words[j]) ;
  52. }
  53. return uniques;
  54. }
  55. private static object AddElement(IDictionary collection, object key, object newValue)
  56. {
  57. object element=collection[key];
  58. collection[key]=newValue;
  59. return element;
  60. }
  61. private int GetTermIndex(string term)
  62. {
  63. object index=_wordsIndex[term];
  64. if (index == null) return -1;
  65. return (int) index;
  66. }
  67. private void MyInit()
  68. {
  69. _terms=GenerateTerms (_docs );
  70. NumTerms=_terms.Count ;
  71. _maxTermFreq=new int[_numDocs] ;
  72. _docFreq=new int[NumTerms] ;
  73. _termFreq =new int[NumTerms][] ;
  74. _termWeight=new float[NumTerms][] ;
  75. for(int i=0; i < _terms.Count ; i++)
  76. {
  77. _termWeight[i]=new float[_numDocs] ;
  78. _termFreq[i]=new int[_numDocs] ;
  79. AddElement(_wordsIndex, _terms[i], i);
  80. }
  81. GenerateTermFrequency ();
  82. GenerateTermWeight();
  83. }
  84. private float Log(float num)
  85. {
  86. return (float) Math.Log(num) ;//log2
  87. }
  88. private void GenerateTermFrequency()
  89. {
  90. for(int i=0; i < _numDocs ; i++)
  91. {
  92. string curDoc=_docs[i];
  93. IDictionary freq=GetWordFrequency(curDoc);
  94. IDictionaryEnumerator enums=freq.GetEnumerator() ;
  95. _maxTermFreq[i]=int.MinValue ;
  96. while (enums.MoveNext())
  97. {
  98. string word=(string)enums.Key;
  99. int wordFreq=(int)enums.Value ;
  100. int termIndex=GetTermIndex(word);
  101. if(termIndex == -1)
  102. continue;
  103. _termFreq [termIndex][i]=wordFreq;
  104. _docFreq[termIndex] ++;
  105. if (wordFreq > _maxTermFreq[i]) _maxTermFreq[i]=wordFreq;
  106. }
  107. }
  108. }
  109. private void GenerateTermWeight()
  110. {
  111. for(int i=0; i < NumTerms ; i++)
  112. {
  113. for(int j=0; j < _numDocs ; j++)
  114. _termWeight[i][j]=ComputeTermWeight (i, j);
  115. }
  116. }
  117. private float GetTermFrequency(int term, int doc)
  118. {
  119. int freq=_termFreq [term][doc];
  120. int maxfreq=_maxTermFreq[doc];
  121. return ( (float) freq/(float)maxfreq );
  122. }
  123. private float GetInverseDocumentFrequency(int term)
  124. {
  125. int df=_docFreq[term];
  126. return Log((float) (_numDocs) / (float) df );
  127. }
  128. private float ComputeTermWeight(int term, int doc)
  129. {
  130. float tf=GetTermFrequency (term, doc);
  131. float idf=GetInverseDocumentFrequency(term);
  132. return tf * idf;
  133. }
  134. private float[] GetTermVector(int doc)
  135. {
  136. float[] w=new float[NumTerms] ;
  137. for (int i=0; i < NumTerms; i++)
  138. w[i]=_termWeight[i][doc];
  139. return w;
  140. }
  141. public double [] GetTermVector2(int doc)
  142. {
  143. double [] ret = new double[NumTerms];
  144. float[] w = GetTermVector(doc);
  145. for (int i = 0; i < ret.Length; i++ )
  146. {
  147. ret[i] = w[i];
  148. }
  149. return ret;
  150. }
  151. public double GetSimilarity(int doc_i, int doc_j)
  152. {
  153. double [] vector1=GetTermVector2 (doc_i);
  154. double [] vector2=GetTermVector2 (doc_j);
  155. return TermVector.ComputeCosineSimilarity(vector1, vector2) ;
  156. }
  157. private IDictionary GetWordFrequency(string input)
  158. {
  159. string convertedInput=input.ToLower() ;
  160. List<string> temp = new List<string>(_tokenizer.Partition(convertedInput));
  161. string[] words= temp.ToArray();
  162. Array.Sort(words);
  163. String[] distinctWords=GetDistinctWords(words);
  164. IDictionary result=new Hashtable();
  165. for (int i=0; i < distinctWords.Length; i++)
  166. {
  167. object tmp;
  168. tmp=CountWords(distinctWords[i], words);
  169. result[distinctWords[i]]=tmp;
  170. }
  171. return result;
  172. }
  173. private static string[] GetDistinctWords(String[] input)
  174. {
  175. if (input == null)
  176. return new string[0];
  177. else
  178. {
  179. List<string> list = new List<string>();
  180. for (int i=0; i < input.Length; i++)
  181. if (!list.Contains(input[i])) // N-GRAM SIMILARITY?
  182. list.Add(input[i]);
  183. return list.ToArray();
  184. }
  185. }
  186. private int CountWords(string word, string[] words)
  187. {
  188. int itemIdx=Array.BinarySearch(words, word);
  189. if (itemIdx > 0)
  190. while (itemIdx > 0 && words[itemIdx].Equals(word))
  191. itemIdx--;
  192. int count=0;
  193. while (itemIdx < words.Length && itemIdx >= 0)
  194. {
  195. if (words[itemIdx].Equals(word)) count++;
  196. itemIdx++;
  197. if (itemIdx < words.Length)
  198. if (!words[itemIdx].Equals(word)) break;
  199. }
  200. return count;
  201. }
  202. }
  203. }

Tokeniser.cs

  1. /*
  2. Tokenization
  3. Author: Thanh Ngoc Dao - Thanh.dao@gmx.net
  4. Copyright (c) 2005 by Thanh Ngoc Dao.
  5. */
  6. using System;
  7. using System.Collections;
  8. using System.Collections.Generic;
  9. using System.Text.RegularExpressions;
  10. using WawaSoft.Search.Common;
  11. namespace WawaSoft.Search.Common
  12. {
  13. /// <summary>
  14. /// Summary description for Tokeniser.
  15. /// Partition string into SUBwords
  16. /// </summary>
  17. internal class Tokeniser : ITokeniser
  18. {
  19. /// <summary>
  20. /// 以空白字符进行简单分词,并忽略大小写,
  21. /// 实际情况中可以用其它中文分词算法
  22. /// </summary>
  23. /// <param name="input"></param>
  24. /// <returns></returns>
  25. public IList<string> Partition(string input)
  26. {
  27. Regex r=new Regex("([ \\t{}():;. \n])");
  28. input=input.ToLower() ;
  29. String [] tokens=r.Split(input);
  30. List<string> filter=new List<string>() ;
  31. for (int i=0; i < tokens.Length ; i++)
  32. {
  33. MatchCollection mc=r.Matches(tokens[i]);
  34. if (mc.Count <= 0 && tokens[i].Trim().Length > 0
  35. && !StopWordsHandler.IsStopword (tokens[i]) )
  36. filter.Add(tokens[i]) ;
  37. }
  38. return filter.ToArray();
  39. }
  40. public Tokeniser()
  41. {
  42. }
  43. }
  44. }


WawaCluster.cs

  1. using System.Collections.Generic;
  2. namespace WawaSoft.Search.Common
  3. {
  4. internal class WawaCluster
  5. {
  6. public WawaCluster(int dataindex,double[] data)
  7. {
  8. CurrentMembership.Add(dataindex);
  9. Mean = data;
  10. }
  11. /// <summary>
  12. /// 该聚类的数据成员索引
  13. /// </summary>
  14. internal List<int> CurrentMembership = new List<int>();
  15. /// <summary>
  16. /// 该聚类的中心
  17. /// </summary>
  18. internal double[] Mean;
  19. /// <summary>
  20. /// 该方法计算聚类对象的均值
  21. /// </summary>
  22. /// <param name="coordinates"></param>
  23. public void UpdateMean(double[][] coordinates)
  24. {
  25. // 根据 mCurrentMembership 取得原始资料点对象 coord ,该对象是 coordinates 的一个子集;
  26. //然后取出该子集的均值;取均值的算法很简单,可以把 coordinates 想象成一个 m*n 的距阵 ,
  27. //每个均值就是每个纵向列的取和平均值 , //该值保存在 mCenter 中
  28. for (int i = 0; i < CurrentMembership.Count; i++)
  29. {
  30. double[] coord = coordinates[CurrentMembership[i]];
  31. for (int j = 0; j < coord.Length; j++)
  32. {
  33. Mean[j] += coord[j]; // 得到每个纵向列的和;
  34. }
  35. for (int k = 0; k < Mean.Length; k++)
  36. {
  37. Mean[k] /= coord.Length; // 对每个纵向列取平均值
  38. }
  39. }
  40. }
  41. }
  42. }

WawaKMeans.cs

  1. using System;
  2. namespace WawaSoft.Search.Common
  3. {
  4. public class WawaKMeans
  5. {
  6. /// <summary>
  7. /// 数据的数量
  8. /// </summary>
  9. readonly int _coordCount;
  10. /// <summary>
  11. /// 原始数据
  12. /// </summary>
  13. readonly double[][] _coordinates;
  14. /// <summary>
  15. /// 聚类的数量
  16. /// </summary>
  17. readonly int _k;
  18. /// <summary>
  19. /// 聚类
  20. /// </summary>
  21. private readonly WawaCluster[] _clusters;
  22. internal WawaCluster[] Clusters
  23. {
  24. get { return _clusters; }
  25. }
  26. /// <summary>
  27. /// 定义一个变量用于记录和跟踪每个资料点属于哪个群聚类
  28. /// _clusterAssignments[j]=i;// 表示第 j 个资料点对象属于第 i 个群聚类
  29. /// </summary>
  30. readonly int[] _clusterAssignments;
  31. /// <summary>
  32. /// 定义一个变量用于记录和跟踪每个资料点离聚类最近
  33. /// </summary>
  34. private readonly int[] _nearestCluster;
  35. /// <summary>
  36. /// 定义一个变量,来表示资料点到中心点的距离,
  37. /// 其中—_distanceCache[i][j]表示第i个资料点到第j个群聚对象中心点的距离;
  38. /// </summary>
  39. private readonly double[,] _distanceCache;
  40. /// <summary>
  41. /// 用来初始化的随机种子
  42. /// </summary>
  43. private static readonly Random _rnd = new Random(1);
  44. public WawaKMeans(double[][] data, int K)
  45. {
  46. _coordinates = data;
  47. _coordCount = data.Length;
  48. _k = K;
  49. _clusters = new WawaCluster[K];
  50. _clusterAssignments = new int[_coordCount];
  51. _nearestCluster = new int[_coordCount];
  52. _distanceCache = new double[_coordCount,data.Length];
  53. InitRandom();
  54. }
  55. public void Start()
  56. {
  57. int iter = 0;
  58. while (true)
  59. {
  60. Console.WriteLine("Iteration " + (iter++) + "...");
  61. //1、重新计算每个聚类的均值
  62. for (int i = 0; i < _k; i++)
  63. {
  64. _clusters[i].UpdateMean(_coordinates);
  65. }
  66. //2、计算每个数据和每个聚类中心的距离
  67. for (int i = 0; i < _coordCount; i++)
  68. {
  69. for (int j = 0; j < _k; j++)
  70. {
  71. double dist = getDistance(_coordinates[i], _clusters[j].Mean);
  72. _distanceCache[i,j] = dist;
  73. }
  74. }
  75. //3、计算每个数据离哪个聚类最近
  76. for (int i = 0; i < _coordCount; i++)
  77. {
  78. _nearestCluster[i] = nearestCluster(i);
  79. }
  80. //4、比较每个数据最近的聚类是否就是它所属的聚类
  81. //如果全相等表示所有的点已经是最佳距离了,直接返回;
  82. int k = 0;
  83. for (int i = 0; i < _coordCount; i++)
  84. {
  85. if (_nearestCluster[i] == _clusterAssignments[i])
  86. k++;
  87. }
  88. if (k == _coordCount)
  89. break;
  90. //5、否则需要重新调整资料点和群聚类的关系,调整完毕后再重新开始循环;
  91. //需要修改每个聚类的成员和表示某个数据属于哪个聚类的变量
  92. for (int j = 0; j < _k; j++)
  93. {
  94. _clusters[j].CurrentMembership.Clear();
  95. }
  96. for (int i = 0; i < _coordCount; i++)
  97. {
  98. _clusters[_nearestCluster[i]].CurrentMembership.Add(i);
  99. _clusterAssignments[i] = _nearestCluster[i];
  100. }
  101. }
  102. }
  103. /// <summary>
  104. /// 计算某个数据离哪个聚类最近
  105. /// </summary>
  106. /// <param name="ndx"></param>
  107. /// <returns></returns>
  108. int nearestCluster(int ndx)
  109. {
  110. int nearest = -1;
  111. double min = Double.MaxValue;
  112. for (int c = 0; c < _k; c++)
  113. {
  114. double d = _distanceCache[ndx,c];
  115. if (d < min)
  116. {
  117. min = d;
  118. nearest = c;
  119. }
  120. }
  121. if(nearest==-1)
  122. {
  123. ;
  124. }
  125. return nearest;
  126. }
  127. /// <summary>
  128. /// 计算某数据离某聚类中心的距离
  129. /// </summary>
  130. /// <param name="coord"></param>
  131. /// <param name="center"></param>
  132. /// <returns></returns>
  133. static double getDistance(double[] coord, double[] center)
  134. {
  135. //int len = coord.Length;
  136. //double sumSquared = 0.0;
  137. //for (int i = 0; i < len; i++)
  138. //{
  139. // double v = coord[i] - center[i];
  140. // sumSquared += v * v; //平方差
  141. //}
  142. //return Math.Sqrt(sumSquared);
  143. //也可以用余弦夹角来计算某数据离某聚类中心的距离
  144. return 1- TermVector.ComputeCosineSimilarity(coord, center);
  145. }
  146. /// <summary>
  147. /// 随机初始化k个聚类
  148. /// </summary>
  149. private void InitRandom()
  150. {
  151. for (int i = 0; i < _k; i++)
  152. {
  153. int temp = _rnd.Next(_coordCount);
  154. _clusterAssignments[temp] = i; //记录第temp个资料属于第i个聚类
  155. _clusters[i] = new WawaCluster(temp,_coordinates[temp]);
  156. }
  157. }
  158. }
  159. }


3.点的聚类:


例子如下:

使用你所学到的k均值聚类算法分别按照欧拉距离(平面直角坐标系里的两点间距离公式)和曼哈顿距离(两个点上在标准坐标系上的绝对轴距总和,将下面的点分成三类:

 

坐标X

坐标Y

1

0

0

2

2

3

3

4

2

4

0

6

5

14

             3

6

13

5

7

3

10

8

4

11

9

6

9

10

8

10

11

12

6

12

17

3

13

14

6

14

7

9

15

9

12

 

 

基于欧拉距离的程序代码(C语言)

#include<stdio.h>
#include<math.h>
#define N 15
#define k 3
 
int min(float d[k])                                               
{
      inti=0;                                                  /*定义最短距离下标*/
      if(d[1]<d[i])
           i=1;
      if(d[2]<d[i])
           i=2;
      returni;                                                /*返回最短距离下标*/
}
 
int main()
{
      floata[N][2]={<!-- -->{0,0},{2,3},{4,2},{0,6},{14,3},
           {13,5},{3,10},{4,11},{6,9},{8,10},{12,6},
           {17,3},{14,6},{7,9},{9,12}};             /*N个点,坐标*/
 
 
      inti,j,m;                                                    
 
      inticounter[k],n=0;           /*各簇元素个数,聚类次数*/
 
      floatc[k][2];                                                      /*聚类中心*/ float c1[k][2];                                                    /*新聚类中心*/
      floats[k][2];                                              /*各簇元素坐标和*/
     
      floatd[k];                                                              /*距离*/
 
      intitype;                                                          /*元素所在的簇*/
      floattype[k][N][2];       /*初始化,K簇,每簇含N个元素*/
 
 
      for(j=0;j<k;j++)
      {
           c1[j][0]=a[j][0];                             /*初始化聚类中心*/
           c1[j][1]=a[j][1];                                        
      }
 
      do
      {
           n++;
    for(i=0;i<k;i++)
           {
                 icounter[i]=0;                      /*每次聚类计数器归零*/       
                 for(m=0;m<2;m++)
                 {
           s[i][m]=0;                    /*各簇元素坐标和归零*/
                        c[i][m]=c1[i][m];         
/*新聚类中心赋值给原聚类中心*/
                 }
           }
     
           for(i=0;i<N;i++)                                        /*遍历数组*/
           {
                 for(j=0;j<k;j++)
                      d[j]=fabs(a[i][0]-c[j][0])+fabs(a[i][1]-c[j][1]); 
/*欧拉距离*/
                
                 itype=min(d);                                  /*调用min函数*/
                 for(m=0;m<2;m++)
                 {
                      type[itype][icounter[itype]][m]=a[i][m];                 
                      s[itype][m]+=a[i][m];
                 }
 
                 icounter[itype]++;                   
           }
 
           for(i=0;i<k;i++)
           {   
                 c1[i][0]=s[i][0]/icounter[i];                 /*新聚类中心*/
                 c1[i][1]=s[i][1]/icounter[i];
           }
/*输出每次聚类得到的结果*/
           printf("第%d次基于欧拉距离聚类结果:\n",n);        
           for(j=0;j<k;j++)
           {
                 printf("聚类中心(%f,%f):\t",c[j][0],c[j][1]);
 
                 for(i=0;i<icounter[j];i++)
                 {
                      printf("(%.f,%.f)",type[j][i][0],type[j][i][1]);
                 }
                 printf("\n");
           }
           printf("\n");
 
      }while((fabs(c1[0][0]-c[0][0])>1e-5) ||
            (fabs(c1[1][0]-c[1][0])>1e-5) ||
           (fabs(c1[2][0]-c[2][0])>1e-5));                    
/*聚类结果收敛时跳出循环*/
 
/*打印最终聚类结果*/
      printf("\n基于欧拉距离%d次聚类后结果收敛,最终聚类结果:\n",n);
      for(j=0;j<k;j++)                                  
      {
           printf("聚类中心(%.2f,%.2f):\t",c1[j][0],c1[j][1]);
           for(i=0;i<icounter[j];i++)
           {
                 printf("(%.f,%.f)",type[j][i][0],type[j][i][1]);
           }
           printf("\n");
      }
 
      return0;
}
 


 

运行结果

基于欧拉距离

 

 


聚类中心

元素

( 1.5,  2.75)

(0,0)   (2,3)   (4,2)   (0,6)

( 6.17, 10.17)

(3,10)  (4,11)  (6,9)   (7,9)   (9,12)

( 14,   4.6)

(14,3)  (13,5)  (12,6)  (17,3)  (14,6)

 

基于曼哈顿距离

 

聚类中心

元素

( 1.5,  2.75)

(0,0)   (2,3)   (4,2)   (0,6)

( 6.17, 10.17)

(3,10)  (4,11)  (6,9)   (7,9)   (9,12)

( 14,   4.6)

(14,3)  (13,5)  (12,6)  (17,3)  (14,6)

 





c#的例子代码:

  1. k均值算法是模式识别的聚分类问题,这是用C#实现其算法
  2. 以下是程序源代码:
  3. using System;
  4. using System.Drawing;
  5. using System.Collections;
  6. using System.ComponentModel;
  7. using System.Windows.Forms;
  8. using System.Data;
  9. namespace KMean_win
  10. {
  11. ///
  12. /// Form1 的摘要说明。
  13. ///
  14. public class Form1 : System.Windows.Forms.Form
  15. {
  16. ///
  17. /// 必需的设计器变量。
  18. ///
  19. private System.ComponentModel.Container components = null;
  20. private static int k = 2; //类数,此例题为2类
  21. private static int total = 20; //点个数
  22. private int test = 0;
  23. private PointF[] unknown = new PointF[total]; //点数组
  24. private int[] type = new int[total]; //每个点暂时的类
  25. public PointF[] z = new PointF[k]; //保存新的聚类中心
  26. public PointF[] z0 = new PointF[k]; //保存上一次的聚类中心
  27. private PointF sum;
  28. private int temp = 0;
  29. private System.Windows.Forms.TextBox textBox1;
  30. private int l = 0; //迭代次数
  31. //构造函数,初始化
  32. public Form1()
  33. {
  34. unknown[0]=new Point(0,0);
  35. unknown[1]=new Point(1,0);
  36. unknown[2]=new Point(0,1);
  37. unknown[3]=new Point(1,1);
  38. unknown[4]=new Point(2,1);
  39. unknown[5]=new Point(1,2);
  40. unknown[6]=new Point(2,2);
  41. unknown[7]=new Point(3,2);
  42. unknown[8]=new Point(6,6);
  43. unknown[9]=new Point(7,6);
  44. unknown[10]=new Point(8,6);
  45. unknown[11]=new Point(6,7);
  46. unknown[12]=new Point(7,7);
  47. unknown[13]=new Point(8,7);
  48. unknown[14]=new Point(9,7);
  49. unknown[15]=new Point(7,8);
  50. unknown[16]=new Point(8,8);
  51. unknown[17]=new Point(9,8);
  52. unknown[18]=new Point(8,9);
  53. unknown[19]=new Point(9,9);
  54. InitializeComponent();
  55. test = 0;
  56. //选k个初始聚类中心 z[i]
  57. for(int i=0;i z[i] = unknown[i];
  58. for(int i=0;i type[i] = 0;
  59. }
  60. //计算新的聚类中心
  61. public PointF newCenter(int m)
  62. {
  63. int N = 0;
  64. for(int i=0;i {
  65. if(type[i] == m)
  66. {
  67. sum.X = unknown[i].X+sum.X;
  68. sum.Y = unknown[i].Y+sum.Y;
  69. N += 1;
  70. }
  71. }
  72. sum.X=sum.X/N;
  73. sum.Y=sum.Y/N;
  74. return sum;
  75. }
  76. //比较两个聚类中心的是否相等
  77. private bool compare(PointF a,PointF b)
  78. {
  79. if(((int)(a.X*10) == (int)(b.X*10)) && ((int)(a.X*10) == (int)(b.X*10)))
  80. return true;
  81. else
  82. return false;
  83. }
  84. //进行迭代,对total个样本根据聚类中心进行分类
  85. private void order()
  86. {
  87. int temp = 0;//记录unknown[i]暂时在哪个类中
  88. for(int i=0;i {
  89. for(int j=0;j {
  90. if(distance(unknown[i],z[temp]) > distance(unknown[i],z[j]))
  91. temp = j;
  92. }
  93. type[i] = temp;
  94. Console.WriteLine("经比较后,{0}归为{1}类",unknown[i],temp);
  95. }
  96. }
  97. //计算两个点的欧式距离
  98. private float distance(PointF p1,PointF p2)
  99. {
  100. return((p1.X-p2.X)*(p1.X-p2.X)+ (p1.Y-p2.Y)*(p1.Y-p2.Y));
  101. }
  102. ///
  103. /// 清理所有正在使用的资源。
  104. ///
  105. protected override void Dispose( bool disposing )
  106. {
  107. if( disposing )
  108. {
  109. if (components != null)
  110. {
  111. components.Dispose();
  112. }
  113. }
  114. base.Dispose( disposing );
  115. }
  116. //程序结构
  117. public void main()
  118. {
  119. Console.WriteLine("共有如下个未知样本:");
  120. for(int i=0;i {
  121. Console.WriteLine(unknown[i]);
  122. }
  123. /* for(int i=0;i Console.WriteLine("初始时,第{0}类中心{1}",i,z[i]);
  124. order();
  125. for(int i=0;i {
  126. z[i] = newCenter(i);
  127. Console.WriteLine("第{0}类新中心{1}",i,z[i]);
  128. if(z[i].Equals(z0[i]) )
  129. test = test+1;
  130. else
  131. z0[i] = z[i];
  132. }
  133. */ for(int i=0;i Console.WriteLine("初始时,第{0}类中心{1}",i,z[i]);
  134. while( test!=k )
  135. {
  136. order();
  137. for(int i=0;i {
  138. z[i] = newCenter(i);
  139. Console.WriteLine("第{0}类新中心{1}",i,z[i]);
  140. if(compare(z[i],z0[i]))
  141. test = test+1;
  142. else
  143. z0[i] = z[i];
  144. }
  145. l = l+1;
  146. Console.WriteLine("******已完成第{0}次迭代*******",l);
  147. Console.Write("{0}","分类后:");
  148. for(int j=0;j {
  149. Console.Write("第{0}类有:",j);
  150. for(int i=0;i {
  151. if(type[i] == j)
  152. Console.WriteLine("{0},{1}",unknown[i].X,unknown[i].Y);
  153. }
  154. }
  155. }
  156. }
  157. #region Windows 窗体设计器生成的代码
  158. ///
  159. /// 设计器支持所需的方法 - 不要使用代码编辑器修改
  160. /// 此方法的内容。
  161. ///
  162. private void InitializeComponent()
  163. {
  164. this.textBox1 = new System.Windows.Forms.TextBox();
  165. this.SuspendLayout();
  166. //
  167. // textBox1
  168. //
  169. this.textBox1.Location = new System.Drawing.Point(0, 0);
  170. this.textBox1.Multiline = true;
  171. this.textBox1.Name = "textBox1";
  172. this.textBox1.ScrollBars = System.Windows.Forms.ScrollBars.Vertical;
  173. this.textBox1.Size = new System.Drawing.Size(296, 272);
  174. this.textBox1.TabIndex = 0;
  175. this.textBox1.Text = "";
  176. //
  177. // Form1
  178. //
  179. this.AutoScaleBaseSize = new System.Drawing.Size(6, 14);
  180. this.ClientSize = new System.Drawing.Size(292, 271);
  181. this.Controls.Add(this.textBox1);
  182. this.Name = "Form1";
  183. this.Text = "Form1";
  184. this.ResumeLayout(false);
  185. }
  186. #endregion
  187. }
  188. class entrance
  189. { ///
  190. /// 应用程序的主入口点。
  191. ///
  192. [STAThread]
  193. static void Main()
  194. {
  195. Form1 my = new Form1();
  196. my.main();
  197. Application.Run(new Form1());
  198. }
  199. }
  200. }





声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/484767
推荐阅读
相关标签
  

闽ICP备14008679号