赞
踩
应用:
• 使用TF-IDF算法,找出两篇文章的关键词;
• 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合
中的词的词频;
• 生成两篇文章各自的词频向量;
• 计算两个向量的余弦相似度,值越大就表示越相似。
5.L C S 定 义
• 最长公共子序列(Longest Common Subsequence)
• 一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列
• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序
列
– 字符串12455与245576的最长公共子序列为2455
– 字符串acdfg与adfc的最长公共子序列为adf
• 注意区别最长公共子串(Longest Common Substring)
– 最长公共子串要求连接
L C S 作 用
• 求两个序列中最长的公共子序列算法
– 生物学家常利用该算法进行基因序列比对ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。