赞
踩
编辑距离(Edit Distance),又称为莱文斯坦距离(Levenshtein Distance),是衡量两个字符串之间的相似度的一种重要算法。具体来说,它计算从一个字符串转换到另一个字符串所需的最少操作次数。常见的操作包括插入一个字符、删除一个字符和替换一个字符。编辑距离算法在机器翻译、语音识别和拼写纠错等领域有广泛应用。
目录
给两个单词 word1
和 word2
, 请返回将 word1
转换成 word2
所使用的最少操作数 。你可以对一个单词进行如下三种操作:
示例 1:
输入:word1 = "horse", word2 = "ros"
输出:3
解释:
horse -> rorse (将 'h' 替换为 'r')
rorse -> rose (删除 'r')
rose -> ros (删除 'e')
示例 2:
输入:word1 = "intention", word2 = "execution"
输出:5
解释:
intention -> inention (删除 't')
inention -> enention (将 'i' 替换为 'e')
enention -> exention (将 'n' 替换为 'x')
exention -> exection (将 'n' 替换为 'c')
exection -> execution (插入 'u')
提示:
0 <= word1.length, word2.length <= 500
word1
和 word2
由小写英文字母组成 这个问题是典型的动态规划问题,可以使用二维动态规划数组dp
来解决。其中dp[i][j]
表示将word1
的前i
个字符转换成word2
的前j
个字符所需的最少操作数。我们需要初始化边界条件,然后填充整个dp
表。
对于每个dp[i][j]
,我们有三种情况可以考虑:
word1[i-1] == word2[j-1]
,即当前字符相同,那么不需要任何操作,dp[i][j] = dp[i-1][j-1]
。word1
的第i
个字符,这对应于dp[i-1][j] + 1
(即删除操作)。word1
的第i
个位置插入word2
的第j
个字符,这对应于dp[i][j-1] + 1
(即插入操作)。word1
的第i
个字符替换为word2
的第j
个字符,这对应于dp[i-1][j-1] + 1
(即替换操作)。我们需要取这三种情况中的最小值。
换一种说法:
想象你是一位文字编辑,你的任务是将一篇手稿(我们称之为word1
)修改成另一篇最终版本(我们称之为word2
)。在这个过程中,你有三种工具可以使用:
你的目标是使用最少的操作次数(即最少的笔划、橡皮擦擦除和墨水替换)来完成这个任务。
dp
,大小为(len(word1) + 1)×(len(word2) + 1)
,并初始化为0。注意这里我们让数组的大小比单词长度多1,是为了方便处理空字符串的情况。 对于D[i][j]
的计算,要考虑三种情况:
word1
的第i
个位置之前插入word2
的第j
个字符,这等价于计算D[i][j-1] + 1
(即在word1
的前i
个字符与word2
的前j-1
个字符之间的编辑距离基础上加1)。word1
的第i
个字符,这等价于计算D[i-1][j] + 1
(即在word1
的前i-1
个字符与word2
的前j
个字符之间的编辑距离基础上加1)。word1
的第i
个字符与word2
的第j
个字符不同,则替换它,这等价于计算D[i-1][j-1] + 1
。如果它们相同,则不需要替换,直接继承D[i-1][j-1]
的值。结合上述操作,状态转移方程为:
其中,cost
为 0(如果 A[i-1] == B[j-1]
)或 1(如果 A[i-1] != B[j-1]
)。
A
为空,则 D[0][j] = j
,因为我们需要 j
次插入操作。B
为空,则 D[i][0] = i
,因为我们需要 i
次删除操作。 返回dp[len(word1)][len(word2)]
,即将整个word1
转换成整个word2
所需的最少操作数。
O(m * n),其中m和n分别是word1
和word2
的长度。因为我们需要填充一个m+1 x n+1的二维数组。
O(m * n),同样是因为需要一个m+1 x n+1的二维数组来存储中间结果。
- class Solution(object):
- def minDistance(self, word1, word2):
- m, n = len(word1), len(word2)
- dp = [[0] * (n + 1) for _ in range(m + 1)]
-
- # 初始化第一行和第一列
- for i in range(m + 1):
- dp[i][0] = i
- for j in range(n + 1):
- dp[0][j] = j
-
- # 填充 DP 表
- for i in range(1, m + 1):
- for j in range(1, n + 1):
- if word1[i - 1] == word2[j - 1]:
- dp[i][j] = dp[i - 1][j - 1]
- else:
- dp[i][j] = min( dp[i - 1][j] + 1, # 删除
- dp[i][j - 1] + 1, # 插入
- dp[i - 1][j - 1] + 1) # 替换
-
- return dp[m][n]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。