了解这个数据结构之前我们需要了解它能被用来做什么
字典树又称单词查找树,Tire树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
说到底,字典树就是用来查询公共前缀的一个工具,延伸的话可以用来进行串匹配,词频统计等,也是学AC自动机
的前置技能.
所谓的字典树,其实就是一个n叉树
我们对于每个字母,如果有公共前缀的,我们找到它的前缀,在后面不同的部分建立不同的子节点,比如说apple
,appear
,appxy
三个不同的单词,公共前缀为app
,所以建树如下:
如果下面有一个单词为apzl
的话,建树如下
也就是只注意前缀相同的部分,后面即使有一样的字母也重新建立子节点
那么问题来了,单词的第一个字母不止A
啊,应该怎么办?
其实不难,学过二分图的应该能想出来:设置一个超级源点,我们在第一个字母上面再设一个超级源点,这样计算的时候不考虑他就行了,这样第一层就可以和下面的子节点一样建立了
如图所示(ps:此图有误,apply
应该为appxy
)
又是喜(sang)闻(xin)乐(bing)见(kuang)的代码环节了
个人由于ACM的原因,就只放数组实现的板子了,(反正懂原理了指针版的也挺简单的)
由于数组不能动态开内存,所以我们就得采用模拟的形式了,这里其实用了一点并查集的思想,各位客官看下图
由于不能动态分配内存,同时字典树又是比较耗费空间的,所以我们的内存分配尽可能大,开一个二维数组tire[maxn][26]
,然后tire[i][j] = k 代表编号为i
的节点的第j
个孩子是编号为k
的节点,这里的j
通常指当前位的字母A-Z
然后关于编号,我们这里的存树方式是:如果要生成新节点,则编号++,否则编号不动,所以如上图,APPLY
的对应编号应该为1,2,3,4,10,11
;
同时有:
- tire[1]['A'-'A'] = 2;
- tire[2]['P'-'A'] = 3;
- tire[3]['P'-'A'] = 10;
- tire[10]['X'-'A'] = 11;
- tire[11]['Y'-'A'] = 0;
这样,查找的时候利用并查集的思想不断向下查找即可
代码如下
- /*头文件可以忽略,只是一些常用的宏*/
- #include <map>
- #include <queue>
- #include <cstdlib>
- #include <cmath>
- #include <cstdio>
- #include <string>
- #include <cstring>
- #include <fstream>
- #include <iostream>
- #include <sstream>
- #include <algorithm>
- #define _mem(a,b) memset(a,0,(b+3)<<2)
- #define fori(a) for(int i=0;i<a;i++)
- #define forj(a) for(int j=0;j<a;j++)
- #define ifor(a) for(int i=1;i<=a;i++)
- #define jfor(a) for(int j=1;j<=a;j++)
- #define mem(a,b) memset(a,b,sizeof(a))
- #define IN freopen("in.txt","r",stdin)
- #define OUT freopen("out.txt","w",stdout)
- #define IO do{\
- ios::sync_with_stdio(false);\
- cin.tie(0);\
- cout.tie(0);}while(0)
- #define mp(a,b) make_pair(a,b);
- using namespace std;
- typedef long long ll;
- const int maxn = 1e5;
- const int INF = 0x3f3f3f3f;
- const int inf = 0x3f;
- const double EPS = 1e-7;
- const double Pi = acos(-1);
- const int MOD = 1e9+7;
- int Tire[maxn][26];
- char str[2000005];
- bool v[maxn];
- string s;
- int cnt = 1;
- //建树,每输入一个单词到s里面就调用_insert()就好
- void _insert(){
- int root = 0;
- fori(s.size()){
- int next = s[i] - 'A';
- if(!Tire[root][next])
- Tire[root][next] = ++cnt;
- root = Tire[root][next];
- }
- v[root] = true;//这里用了一个标记数组表示该点存在一个完整的单词,比如说`app`和`apple`
- //在最后一个`p`的位置就会被标记true
- }
-
- //查找最长公共前缀
- int _find(char bufs[],int leng){
- int root = 0;
- int cns = 0;
- int next;
- int res = 0;
- fori(leng){
- next = bufs[i] - 'A';
- if(Tire[root][next] == 0)
- break;
- root = Tire[root][next];
- cns++;
- if(v[root])
- res = cns;
- }
- return res;
- }
-