当前位置:   article > 正文

最小编辑距离 -- 解析及python实现_python编辑距离法 原理

python编辑距离法 原理

一、题目要求

二、实验原理

三、实验代码

       1. 方法一:递归

       2. 方法二:动态规划

四、结果


一、题目要求

尝试用python写一段最小编辑距离计算的代码

两个字符串之间,有一个转变成另一个所需要的操作数量

支持三种操作输入 Insertion   Deletion  Substitution

二、实验原理

    编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大

    给定两个字符串,求由一个转成另一个所需要的最少编辑操作次数。

    在5X5的列表中,s[i][j]表示:字符串A前i个字符与字符串B前j个字符的最短编辑距离。求最小编辑距离就是把这个列表填写完,s[4][4]的值即为所求的最小编辑距离。

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

 

 

 

 

c

2

 

 

 

 

e

3

 

 

 

 

f

4

 

 

 

 

思路:

1. 当Ai和Bj的末尾字符A[i]==B[j]时,对末尾字符不需要进行编辑,  diff = 0,step[i][j] = step[i-1][j-1]

2. 当Ai和Bj的末尾字符A[i]!=B[j]时,需要对其中之一的末尾进行编辑, diff = 1

 (1)先A[i-1]->B[j]再A[i]->B[j]       step[i][j] = step[i-1][j]+diff

 (2)先A[i]->B[j-1]再A[i]->B[j]       step[i][j] = step[i][j-1]+diff

 (3)先A[i-1]->B[j-1]再A[i]->B[j]      step[i][j] = step[i-i][j-1]+diff

取三种操作的最小值,就是Ai->Bj的最小编辑距离      step[i][j] = min(step[i-1][j], step[i][j-1], step[i-i][j-1])+diff

3.特殊情况,
if(A == null)  step[0][j] = j
if(B == null)  step[i][0] = i

4.最后step[len(A)][len(B)]即为A->B的最小标记距离。

填写表格:

1. 填写s[1]过程:
A[1]==B[1],s[1][1]=min(s[1][0],s[0][0],s[0][1])+0=0
A[1]!=B[2],s[1][2]=min(s[1][1],s[0][1],s[0][2])+1=1
A[1]!=B[3],s[1][3]=min(s[1][2],s[0][2],s[0][3])+1=2
A[1]!=B[4],s[1][4]=min(s[1][3],s[0][3],s[0][4])+1=3

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

 

 

 

 

e

3

 

 

 

 

f

4

 

 

 

 

 

2. 填写s[2]过程:
A[2]!=B[1],s[2][1]=min(s[2][0],s[1][0],s[1][1])+1=1
A[2]!=B[2],s[2][2]=min(s[2][1],s[1][1],s[1][2])+1=1
A[2]==B[3],s[2][3]=min(s[2][2],s[1][2],s[1][3])+0=1
A[2]!=B[4],s[2][4]=min(s[2][3],s[1][3],s[1][4])+1=2

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

 

 

 

 

f

4

 

 

 

 

 

3. 填写s[3]过程:
A[3]!=B[1],s[3][1]=min(s[3][0],s[2][0],s[2][1])+1=2
A[3]!=B[2],s[3][2]=min(s[3][1],s[2][1],s[2][2])+1=2
A[3]!=B[3],s[3][3]=min(s[3][2],s[2][2],s[2][3])+1=2
A[3]==B[4],s[3][4]=min(s[3][3],s[2][3],s[3][4])+0=1

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

2

2

2

1

f

4

 

 

 

 

 

4. 填写s[4]过程:
A[4]!=B[1],s[4][1]=min(s[4][0],s[3][0],s[3][1])+1=3
A[4]!=B[2],s[4][2]=min(s[4][1],s[3][1],s[3][2])+1=3
A[4]!=B[3],s[4][3]=min(s[4][2],s[3][2],s[3][3])+1=3
A[4]!=B[4],s[4][4]=min(s[4][3],s[3][3],s[3][4])+1=2

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

2

2

2

1

f

4

3

3

3

2

 

所以A—>B编辑距离为2次,操作为:acef在字符ac之间插入字符b,删除字符f

三、实验代码

1. 方法一:递归

  1. A = input("输入字符串1:")
  2. B = input("输入字符串2:")
  3. def recursive_edit_distance(str_a, str_b):
  4. if len(str_a) == 0:
  5. return len(str_b)
  6. elif len(str_b) == 0:
  7. return len(str_a)
  8. elif str_a[len(str_a)-1] == str_b[len(str_b)-1]:
  9. return recursive_edit_distance(str_a[0:-1], str_b[0:-1])
  10. else:
  11. return min([
  12. recursive_edit_distance(str_a[:-1], str_b),
  13. recursive_edit_distance(str_a, str_b[:-1]),
  14. recursive_edit_distance(str_a[:-1], str_b[:-1])
  15. ]) + 1
  16. print(recursive_edit_distance(A, B))

2. 方法二:动态规划

  1. import nltk
  2. A = input("输入字符串1:")
  3. B = input("输入字符串2:")
  4. def minDistance(w1, w2):
  5. m, n = len(w1),len(w2)
  6. if(m == 0):
  7. return m
  8. if(n == 0):
  9. return n
  10. step = [[0]*(n+1)for _ in range(m + 1)]
  11. for i in range(1, m+1):step[i][0]=i
  12. for j in range(1, n+1):step[0][j]=j
  13. for i in range(1, m+1):
  14. for j in range(1, n+1):
  15. if w1[i-1] == w2[j-1] :
  16. diff=0
  17. else:diff=1
  18. step[i][j] = min(step[i-1][j-1],min(step[i-1][j],step[i][j-1]))+diff
  19. return step[m][n]
  20. print(minDistance(A,B))
  21. 打印出完整变换:
  22. A = input("输入字符串1:")
  23. B = input("输入字符串2:")
  24. def edit_distance_Omn(str_a, str_b):
  25. if str_a == str_b:
  26. return 0
  27. if len(str_a) == 0:
  28. return len(str_b)
  29. if len(str_b) == 0:
  30. return len(str_a)
  31. dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]
  32. for i in range(len(str_b) + 1):
  33. dp[i][0] = i
  34. for j in range(len(str_a) + 1):
  35. dp[0][j] = j
  36. for i in range(1, len(str_b) + 1):
  37. for j in range(1, len(str_a) + 1):
  38. dp[i][j] = dp[i-1][j-1]
  39. if str_a[j-1] != str_b[i-1]:
  40. dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1
  41. #打印完整路径矩阵(这一步非必要)
  42. '''for i in range(len(str_b) + 1):
  43. for j in range(len(str_a) + 1):
  44. print(dp[i][j])
  45. # print()'''
  46. # 准备倒着查询编辑路径,从右下角开始
  47. i , j = len(str_b), len(str_a)
  48. op_list = [] # 记录编辑操作
  49. while i > 0 and j > 0:
  50. if dp[i][j] == dp[i-1][j-1]:
  51. op_list.append("keep [ {} ]".format(str_b[i-1]))
  52. i, j = i-1, j-1
  53. continue
  54. if dp[i][j] == dp[i-1][j] + 1:
  55. op_list.append("remove [ {} ]".format(str_b[i-1]))
  56. i, j = i-1, j
  57. continue
  58. if dp[i][j] == dp[i-1][j-1] + 1:
  59. op_list.append("change [ {} ] to [ {} ]".format(str_b[i-1], str_a[j-1]))
  60. i, j = i-1, j-1
  61. continue
  62. if dp[i][j] == dp[i][j-1] + 1:
  63. op_list.append("insert [ {} ]".format(str_a[j-1]))
  64. i, j = i, j-1
  65. for i in range(len(op_list)):
  66. print(op_list[len(op_list)-i-1])
  67. return dp[len(str_b)][len(str_a)]
  68. print(edit_distance_Omn(A, B))

四、结果

参考链接:

https://www.cnblogs.com/AsuraDong/p/6957890.html

https://blog.csdn.net/qq_33085753/article/details/86595452

https://www.cnblogs.com/CheeseZH/p/8821282.html

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/278131
推荐阅读
相关标签
  

闽ICP备14008679号