当前位置:   article > 正文

动态规划:编辑距离_实现编辑距离算法

实现编辑距离算法

        编辑距离(Edit Distance),又称为莱文斯坦距离(Levenshtein Distance),是衡量两个字符串之间的相似度的一种重要算法。具体来说,它计算从一个字符串转换到另一个字符串所需的最少操作次数。常见的操作包括插入一个字符、删除一个字符和替换一个字符。编辑距离算法在机器翻译、语音识别和拼写纠错等领域有广泛应用。


目录

题目

思路

解题过程

初始化

填充DP表

边界条件

返回结果

复杂度

时间复杂度

空间复杂度

code


题目

        给两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。你可以对一个单词进行如下三种操作:

  • 插入一个字符
  • 删除一个字符
  • 替换一个字符

示例 1:

输入:word1 = "horse", word2 = "ros"
输出:3
解释:
horse -> rorse (将 'h' 替换为 'r')
rorse -> rose (删除 'r')
rose -> ros (删除 'e')

示例 2:

输入:word1 = "intention", word2 = "execution"
输出:5
解释:
intention -> inention (删除 't')
inention -> enention (将 'i' 替换为 'e')
enention -> exention (将 'n' 替换为 'x')
exention -> exection (将 'n' 替换为 'c')
exection -> execution (插入 'u')

提示:

  • 0 <= word1.length, word2.length <= 500
  • word1 和 word2 由小写英文字母组成

思路

        这个问题是典型的动态规划问题,可以使用二维动态规划数组dp来解决。其中dp[i][j]表示将word1的前i个字符转换成word2的前j个字符所需的最少操作数。我们需要初始化边界条件,然后填充整个dp表。

对于每个dp[i][j],我们有三种情况可以考虑:

  1. 如果word1[i-1] == word2[j-1],即当前字符相同,那么不需要任何操作,dp[i][j] = dp[i-1][j-1]
  2. 如果不相同,我们可以选择删除word1的第i个字符,这对应于dp[i-1][j] + 1(即删除操作)。
  3. 或者我们可以在word1的第i个位置插入word2的第j个字符,这对应于dp[i][j-1] + 1(即插入操作)。
  4. 或者我们可以将word1的第i个字符替换为word2的第j个字符,这对应于dp[i-1][j-1] + 1(即替换操作)。

        我们需要取这三种情况中的最小值。

换一种说法:

        想象你是一位文字编辑,你的任务是将一篇手稿(我们称之为word1)修改成另一篇最终版本(我们称之为word2)。在这个过程中,你有三种工具可以使用:

  1. 插入笔:这支笔能让你在手稿的任何位置插入一个字符,以匹配最终版本。
  2. 删除橡皮擦:这个橡皮擦能擦除手稿上的任何字符,以消除不需要的部分。
  3. 替换墨水:这个特殊的墨水可以让你将手稿上的某个字符替换成另一个字符,以匹配最终版本。

        你的目标是使用最少的操作次数(即最少的笔划、橡皮擦擦除和墨水替换)来完成这个任务。


解题过程

  • 初始化

  1. 创建一个二维数组dp,大小为(len(word1) + 1)×(len(word2) + 1),并初始化为0。注意这里我们让数组的大小比单词长度多1,是为了方便处理空字符串的情况。
  2. 初始化第一行和第一列,表示将一个空字符串转换成另一个字符串(或相反)所需的操作数,即字符串的长度。
  • 填充DP表

        对于D[i][j]的计算,要考虑三种情况:

  1. 插入操作:在word1的第i个位置之前插入word2的第j个字符,这等价于计算D[i][j-1] + 1(即在word1的前i个字符与word2的前j-1个字符之间的编辑距离基础上加1)。
  2. 删除操作:删除word1的第i个字符,这等价于计算D[i-1][j] + 1(即在word1的前i-1个字符与word2的前j个字符之间的编辑距离基础上加1)。
  3. 替换操作:如果word1的第i个字符与word2的第j个字符不同,则替换它,这等价于计算D[i-1][j-1] + 1。如果它们相同,则不需要替换,直接继承D[i-1][j-1]的值。

        结合上述操作,状态转移方程为:  

D[i][j] = \min(D[i-1][j] + 1, D[i][j-1] + 1, D[i-1][j-1] + cost)

        其中,cost 为 0(如果 A[i-1] == B[j-1])或 1(如果 A[i-1] != B[j-1])。

  • 边界条件

  1. 如果字符串 A 为空,则 D[0][j] = j,因为我们需要 j 次插入操作。
  2. 如果字符串 B 为空,则 D[i][0] = i,因为我们需要 i 次删除操作。
  3. 两个字符串都为空时,编辑距离为0,因为它们已经相同
  • 返回结果

        返回dp[len(word1)][len(word2)],即将整个word1转换成整个word2所需的最少操作数。


复杂度

  • 时间复杂度

        O(m * n),其中m和n分别是word1word2的长度。因为我们需要填充一个m+1 x n+1的二维数组。

  • 空间复杂度

        O(m * n),同样是因为需要一个m+1 x n+1的二维数组来存储中间结果。


code

  1. class Solution(object):
  2. def minDistance(self, word1, word2):
  3. m, n = len(word1), len(word2)
  4. dp = [[0] * (n + 1) for _ in range(m + 1)]
  5. # 初始化第一行和第一列
  6. for i in range(m + 1):
  7. dp[i][0] = i
  8. for j in range(n + 1):
  9. dp[0][j] = j
  10. # 填充 DP 表
  11. for i in range(1, m + 1):
  12. for j in range(1, n + 1):
  13. if word1[i - 1] == word2[j - 1]:
  14. dp[i][j] = dp[i - 1][j - 1]
  15. else:
  16. dp[i][j] = min( dp[i - 1][j] + 1, # 删除
  17. dp[i][j - 1] + 1, # 插入
  18. dp[i - 1][j - 1] + 1) # 替换
  19. return dp[m][n]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/1019318
推荐阅读
相关标签
  

闽ICP备14008679号