当前位置:   article > 正文

最长公共子序列问题(LCS)

最长公共子序列

相关概念

子序列形式化定义:

给定一个序列X=<x1,x2,x3,x4...,xm>,另一个序列Z=<z1,z2,z3,z4...,zk>,若存在一个严格递增的X的下标序列<i1,i2,i3,...,ik>对所有的1,2,3,...,k,都满足x(ik)=zk,则称Z是X的子序列

比如Z=<B,C,D,B>是X=<A,B,C,B,D,A,B>的子序列

公共子序列定义:

如果Z既是X的子序列,又是Y的子序列,则称Z为X和Y的公共子序列

最长公共子序列(以下简称LCS):

2个序列的子序列中长度最长的那个

方法

蛮力法求解最长公共子序列:

需要遍历出所有的可能,时间复杂度是O(n³),太慢了

动态规划求解最长公共子序列:

分析规律:

设X=<x1,x2,x3,x4...,xm>,Y=<y1,y2,y3,y4...,yn>为两个序列,Z=<z1,z2,z3,z4...,zk>是他们的任意公共子序列

经过分析,我们可以知道:

1、如果xm = yn,则zk = xm = yn 且 Zk-1是Xm-1和Yn-1的一个LCS

2、如果xm != yn 且 zk != xm,则Z是Xm-1和Y的一个LCS

3、如果xm != yn 且 zk != yn,则Z是X和Yn-1的一个LCS

所以如果用一个二维数组c表示字符串X和Y中对应的前i,前j个字符的LCS的长度话,可以得到以下公式:

文字意思就是:

p1表示X的前 i-1 个字符和Y的前 j 个字符的LCS的长度

p2表示X的前 i 个字符和Y的前 j-1 个字符的LCS的长度

p表示X的前 i-1 个字符和Y的前 j-1 个字符的LCS的长

p0表示X的前 i 个字符和Y的前 j 个字符的LCS的长度

如果X的第 i 个字符和Y的第 j 个字符相等,则p0 = p + 1

如果X的第 i 个字符和Y的第 j 个字符不相等,则p0 = max(p1,p2)

做法:

因此,我们只需要从c[0][0]开始填表,填到c[m-1][n-1],所得到的c[m-1][n-1]就是LCS的长度

但是,我们怎么得到LCS本身而非LCS的长度呢?

也是用一个二维数组b来表示:

在对应字符相等的时候,用↖标记

在p1 >= p2的时候,用↑标记

在p1 < p2的时候,用←标记

伪代码:

 

若想得到LCS,则再遍历一次b数组就好了,从最后一个位置开始往前遍历:

如果箭头是↖,则代表这个字符是LCS的一员,存下来后 i-- , j--

如果箭头是←,则代表这个字符不是LCS的一员,j--

如果箭头是↑ ,也代表这个字符不是LCS的一员,i--

如此直到i = 0或者j = 0时停止,最后存下来的字符就是所有的LCS字符

比如说求ABCBDAB和BDCABA的LCS:

 

灰色且带↖箭头的部分即为所有的LCS的字符

下面演示下c数组的填表过程:(以求ABCB和BDCA的LCS长度为例):

 

 

 

 

 

 

 

 

 

 

 

以此类推

最后填出的表为:

 

右下角的2即为LCS的长度

时间复杂度:

由于只需要填一个m行n列的二维数组,其中m代表第一个字符串长度,n代表第二个字符串长度

所以时间复杂度为O(m*n)

代码:

/**********************************************************************

最大公共子序列:

最大公共子序列长度:int Lcs_length( char *str1, char *str2, int **c, int **b)

输出最大公共子序列:void Print_Lcs( char *str, int **b, int i, int j)

输出最大公共子序列长度及最大公共子序列:void Find_Lcs( char *str1, char *str2)

时间复杂度:构建矩阵花费了O(MN)的时间,回溯时花费了O(M+N)的时间,两者相加最终花费了O(MN)的时间。

空间复杂度:构建矩阵花费了O(MN)的空间,标记函数也花费了O(MN)的空间,两者相加最终花费了O(MN)的空间。

************************************************************************/

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#define EQUAL 1 //EQUAL表示c[i][j]是由c[i-1][j-1]+1来的=====此时两个序列有相同的字符

#define UP 2 //UP表示c[i][j]是由c[i-1][j]来的============此时两个序列没有相同的字符

#define LEFT 3 //LEFT表示c[i][j]是由[ci][j-1]来的==========此时两个序列没有相同的字符

/**************************************************************

函数:int Lcs_length( char *str1, char *str2, int **c, int **b)

输入: str1: 待比较字符串1

str2: 待比较字符串2

**c: 储存最大公共子序列长度

**b: 储存最大公共子序列检索路径

返回值:str1和str2最大公共子序列

时间复杂度:O(mn)

空间复杂度:O(mn)

***************************************************************/

int Lcs_length( char *str1, char *str2, int **c, int **b)

{

int len1 = strlen(str1),

len2 = strlen(str2);

int i,j;

for( i = 1; i <= len1; i++)

c[i][0] = 0;

for ( j = 0; j <= len2; j++)

c[0][j] = 0;

for(  i = 1; i <= len1; i++)

for( j = 1; j <= len2; j++)

{

/*******************************

使用i-1和j-1

算法导论书上写的是比较str1[i]和str[j],但是算法导论书上的两个序列下标是由1开始的

这里使用i-1以及j-1是由于数组的下标从0开始

********************************/

if( str1[i-1] == str2[j-1] )

{

c[i][j] = c[i-1][j-1] + 1;

b[i][j] = EQUAL;

}

else if (c[i-1][j] >= c[i][j-1])

{

c[i][j] = c[i-1][j];

b[i][j] = UP;

}

else

{

c[i][j] = c[i][j-1];

b[i][j] = LEFT;

}

}

return c[len1][len2];

}

/**************************************************************

函数:void Print_Lcs( char *str, int **b, int i, int j

str: 待比较字符串1

**b: 储存最大公共子序列检索路径

i: 待比较字符串1的长度

j: 待比较字符串2的长度

返回值:无

打印值:输出字符串1和字符串2的最长公共子序列

时间复杂度:O(m+n)

空间复杂度:O(m+n)

***************************************************************/

void Print_Lcs( char *str, int **b, int i, int j)

{

if( i == 0 || j == 0)

return;

if( b[i][j] == EQUAL)

{

Print_Lcs(str, b, i - 1, j - 1);

printf("%c ", str[i-1]);

}

else if ( b[i][j] == UP )

Print_Lcs(str, b, i - 1, j);

else

Print_Lcs(str, b, i , j - 1);

}

/**************************************************************

函数:void Find_Lcs( char *str1, char *str2)

str1: 待比较字符串1

str2: 待比较字符串2

返回值:无

打印值:输出最大公共子序列长度以及最大公共子序列

时间复杂度:O(mn)

空间复杂度:O(mn)

***************************************************************/

void Find_Lcs( char *str1, char *str2)

{

int i,j,length;

int len1 = strlen(str1),

len2 = strlen(str2);

//申请二维数组

int **c = (int **)malloc(sizeof(int*) * (len1 + 1));

int **b = (int **)malloc(sizeof(int*) * (len1 + 1));

for( i = 0; i<= len1; i++ ) 这个等号之前没加,导致内存泄漏

{

c[i] = (int *)malloc(sizeof(int) * (len2 + 1));

b[i] = (int *)malloc(sizeof(int) * (len2 + 1));

}

//将c[len1][len2]和b[len1][len2]初始化为0

for ( i = 0; i<= len1; i++)

for( j = 0; j <= len2; j++)

{

c[i][j] = 0;

b[i][j] = 0;

}

//计算LCS的长度

length = Lcs_length(str1, str2, c, b);

printf("The number of the Longest-Common-Subsequence is %d\n", length);

//利用数组b输出最长子序列

printf("The Longest-Common-Subsequence is: ");

Print_Lcs(str1, b, len1, len2);

printf("\n");

//动态内存释放

for ( i = 0; i <= len1; i++)

{

free(c[i]);

free(b[i]);

}

free(c);

free(b);

}

int main()

{

char x[10] = "abcdefghi";

char y[10] = "bdegihbjk";

Find_Lcs(x,y);

system("pause");

}

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/499621
推荐阅读
相关标签
  

闽ICP备14008679号