赞
踩
此文全文参考自:https://blog.csdn.net/dq_dm/article/details/45043689,特此感谢!
然后自己参考了:http://www.ahathinking.com/archives/115.html 和July的ppt讲义《十分钟搞定LCS》,为表示版权,特地留下July的log:)。
最长公共子序列,即Longest Common Subsequence,LCS
子序列:一个序列S任意删除若干个字符得到新序列T,则T叫做S的子序列。
最长公共子序列:两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列。
注意:最长公共子串要求联系,而最长公共子序列未必连续。
求两个序列中最长的公共子序列算法,广泛的应用在图形相似处理、媒体流的相似比较、计算生物学方面。生物学家常常利用该算法进行基因序列比对,由此推测序列的结构、功能和演化过程。
LCS可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。简而言之,百度知道、百度百科都用得上。
1)假定序列X,Y的长度分别为m,n;
2)X的一个子序列即下标序列{1, 2, …, m}的严格递增子序列,因此,X共有2m个不同子序列;同理,Y有2n个不同子序列,从而穷举搜索法需要指数时间O(2m . 2n);
3)对X的每一个子序列,检查它是否也是Y的子序列,从而确定它是否为X和Y的公共子序列,并且在检查过程中选出最长的公共子序列;
显然,不可取。
什么是LCS记号?
若Xm = Yn(最后一个字符相同),则:Xm与Yn的最长公共子序列Zk的最后一个字符必定为Xm(也=Yn)。
即有:
Zk= Xm= Yn
LCS(Xm,Yn) = LCS(Xm-1,Yn-1)+Xm
公式:
举例:
1)如果xm≠yn,那么zk≠xm意味着Z是xm-1和Y的一个LCS。也就是
LCS(Xm,Yn)=LCS(Xm-1,Yn)
2)如果xm≠yn,那么zk≠yn意味着Z是X和Yn-1的一个LCS。也就是,
LCS(Xm,Yn)=LCS(Xm,Yn-1)
公式:
举例:
int Lcs_length(string s1, string s2)
{
int m = s1.size(); //字符串1的长度
int n = s2.size();
//int dp[m + 1][n + 1];
vector<vector<int> > dp(m+1,vector<int>(n+1,0));
for (int j = 0; j < n; ++j)
dp[0][j] = 0; //first rank init 0
for (int i = 0; i < m; ++i)
dp[i][0] = 0; //first column init 0
for (int i = 1; i <= m; ++i)
for (int j = 1; j <= n; ++j)
{
if (s1[i] == s2[j])
{
dp[i][j] = dp[i - 1][j - 1] + 1;
}
else
{
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]); //max value
}
}
return dp[m][n];
}
void Lcs_lengthAndStr(string s1, string s2)
{
int m = s1.size(); //字符串1的长度
int n = s2.size();
//int dp[m + 1][n + 1];
vector<vector<int> > dp(m+1,vector<int>(n+1,0));
for (int j = 0; j < n; ++j)
dp[0][j] = 0; //first rank init 0
for (int i = 0; i < m; ++i)
dp[i][0] = 0; //first column init 0
for (int i = 1; i <= m; ++i)
for (int j = 1; j <= n; ++j)
{
if (s1[i] == s2[j])
{
dp[i][j] = dp[i - 1][j - 1] + 1;
}
else
{
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]); //max value
}
}
printf("len of LCS is: %d\n", dp[m][n]);
/* 输出LCS 本来是逆序打印的,可以写一递归函数完成正序打印
这里采用的方法是将Y作为临时存储LCS的数组,最后输出Y
*/
int i = m;
int j = n;
char Y[200]; //Y存放LCS字符串,后面也可以使用new char*或者string
int k = dp[i][j];
Y[k] = '\0';
while (i && j)
{
if (dp[i][j] == dp[i - 1][j - 1] + 1)
{
Y[--k] = s1[i - 1];
--i; --j;
}
else if (dp[i - 1][j] > dp[i][j - 1])
{
--i;
}
else
{
--j;
}
}
printf("%s\n", Y);
}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。