当前位置:   article > 正文

双数组字典树DoubleArrayTrie_double array trie

double array trie

        双数组Tire树是Tire树的存储结构上升级版。

       在查询方面,双数组Tire树拥有Tire树的所有优点,而且刻服了Tire树浪费空间的不足。在插入和删除的时,往往需要对双数组结构进行全局调整,灵活性能较差。如果核心词典已经预先建立好并且有序的,并且不会添加或删除新词,那么这个缺点是可以忽略的。

标准Trie

     向一棵树中插入“清华”、“清华大学”、“清新”、“中华”、“华人”,形成trie.

双数组结构

       设例树的字符编码表为:[清-1,华-2,大-3,学-4,新-5,中-6,人-7](也可以用默认的统一字符编码)

如图所示:

               Position:数据下标,position = 0的时间为root

               Base Array:转移基数数组,ROOT节点为1(可自定义),清的position位置确定为 base[0] + 1(清的编码)                     

                                  如何表示叶子节点?转移基数统一设置设为-1 * base[n], n为叶子节点的position

            Check Array: 较验数组。check数组记录的提这个字的父亲节点的下标,例【清】其 check[2] = 0 指向ROOT

           如果我们要在例树中确认外部的一个字符串“清中”是否是一个词,按照 Trie 树的查找规则,首先要查找“清”这个字,我们从根节点出发,获得|base[1]|+code(“清”)=3,然后转移到“清”节点,确认清在数组中存在,我们继续查找“中”,通过|base[3]|+code(“中”)=9获得位置9,字符串此时查询完毕,根据位置9的转移基数base[9]=-2确定该词在此终结,从而认为字符串“清中”是一个词。而这显然是错误的!所以加了check数组,发现check[9]=3指向“华”。

数组的构建

           1.首先将五个词中的首字"清"、“中”、“华”写入数组之中,写入的位置由base[1]+code(字符)确定,每个位置的转移基数(base[i])等于上一个状态的转移基数(此例也即base[1]),这个过程未遇到冲突,最终结果见下图:

            

         2.然后依次处理每个词的第二个字,首先需要整理相同前缀词(“清华”,“清新”)(“中华”),(“华人”),程序先从根节点出发,通过base[1]+code(“清”)=2找到“清”节点,然后以此计算“华”节点应写入的位置,通过计算base[2]+code(“华”)=3寻找到位置 3,却发现位置3已有值;将base[2] + 1 = 2.再通过计算base[2]+code(“华”)=4,base[2]+code(“新”) = 7,base[7] 又发现有值;base[2] + 1 =3,再通过计算base[2]+code(“华”)=5,base[2]+code(“新”) = 8,成功。 base[5]=base[8]=base[2]=3.(“中华”),(“华人”) 简单。注: 上述的 base[2] 表示 |base[s]| (因为可能是叶子结点,上面忘记写绝对值)

simple代码

  1. public class DoubleArrayTrie {
  2. String[] keys;// 字符集
  3. int[] base;// 转移数组
  4. int[] check;// 较验数组
  5. private static class Node {
  6. private int code;// 字符编码
  7. private int s;// 父字符位置
  8. @Override
  9. public boolean equals(Object o) {
  10. if (this == o)
  11. return true;
  12. if (o == null || getClass() != o.getClass())
  13. return false;
  14. Node node = (Node) o;
  15. if (code != node.code)
  16. return false;
  17. return s == node.s;
  18. }
  19. @Override
  20. public int hashCode() {
  21. int result = code;
  22. result = 31 * result + s;
  23. return result;
  24. }
  25. }
  26. public void build(List<String> list) {
  27. // 给所有字符定编码
  28. this.keys = list.stream().map(word -> word.split("")).flatMap(Arrays::stream).distinct().sorted()
  29. .collect(Collectors.toList()).toArray(new String[0]);
  30. base = new int[3 * keys.length];
  31. check = new int[3 * keys.length];
  32. String[] dir = list.toArray(new String[0]);
  33. // 设置root
  34. base[0] = 1;
  35. for (int i = 0; i < check.length ; i++) {
  36. check[i] = -1;
  37. }
  38. // 词的深度
  39. int depth = 1;
  40. while (!list.isEmpty()) {
  41. // 根据相同前缀分组
  42. Map<Integer, List<Node>> map = new HashMap<>();
  43. for (int i = 0; i < list.size();) {
  44. String word = list.get(i);
  45. String pre = word.substring(0, depth - 1);
  46. String k = word.substring(depth - 1, depth);
  47. Node n = new Node();
  48. n.code = findIndex(k);
  49. n.s = depth == 1 ? 0 : indexOf(pre);
  50. if (depth == word.length()) {
  51. list.remove(i);
  52. } else {
  53. i++;
  54. }
  55. List<Node> siblings = map.getOrDefault(n.s, new ArrayList<>());
  56. if(siblings.contains(n)){
  57. continue;
  58. }
  59. siblings.add(n);
  60. map.put(n.s, siblings);
  61. }
  62. map.forEach((s, siblings) -> {
  63. int offset = 0;
  64. for (int i = 0; i < siblings.size(); i++) {
  65. Node node = siblings.get(i);
  66. int c = node.code;
  67. int t = base[s] + offset + c;
  68. // 发现在节点已有值则偏移+1
  69. if (check[t] != -1) {
  70. offset++;
  71. i = -1;
  72. }
  73. }
  74. base[s] = base[s] + offset;
  75. for (Node node : siblings) {
  76. int c = node.code;
  77. int t = base[s] + c;
  78. // 给上父结点
  79. check[t] = s;
  80. // 给拿上一个节点偏移量
  81. base[t] = base[s];
  82. }
  83. });
  84. depth++;
  85. }
  86. // 发现字节点,置为负数
  87. for (String aDir : dir) {
  88. int s = indexOf(aDir);
  89. base[s] = -1 * base[s];
  90. }
  91. }
  92. // 找询字符编码
  93. private int findIndex(String key) {
  94. for (int i = 0; i < keys.length; i++) {
  95. if (keys[i].equals(key))
  96. return i + 1;
  97. }
  98. throw new RuntimeException("找不到[" + key + "]");
  99. }
  100. // 定位前缀结点position
  101. private int indexOf(String pre) {
  102. int s = 0;
  103. String[] ss = pre.split("");
  104. for (int i = 0; i < ss.length; i++) {
  105. String word = ss[i];
  106. int c = findIndex(word);
  107. int t = (base[s] < 0 ? -1 * base[s] : base[s]) + c;
  108. s = t;
  109. }
  110. return s;
  111. }
  112. public boolean get(String key) {
  113. int s = 0;
  114. String[] ss = key.split("");
  115. for (int i = 0; i < ss.length; i++) {
  116. String word = ss[i];
  117. int c = findIndex(word);
  118. int t = (base[s] < 0 ? -1 * base[s] : base[s]) + c;
  119. if (t >= base.length)
  120. return false;
  121. if (i == ss.length - 1 && check[t] == s) {
  122. return true;
  123. }
  124. s = t;
  125. }
  126. return false;
  127. }
  128. public static void main(String[] args) {
  129. DoubleArrayTrie adt = new DoubleArrayTrie();
  130. List<String> list = Stream.of(new String[]{"hers", "his", "she", "he"}).collect(Collectors.toList());
  131. // 构建DoubleArrayTrie
  132. adt.build(list);
  133. System.out.println(adt.get("hers"));
  134. System.out.println(adt.get("hr"));
  135. }
  136. }

双数组Tire树相对Tire树。减少了查询过程的中比较。相当于对每单词进行hashcode标记
 

参考文献

      小白详解 Trie 树

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/443391
推荐阅读
相关标签
  

闽ICP备14008679号