AhoCorasick(AC)自动机相当于KMP的加强版,可用于多模板匹配。AC自动机是由Trie加上失配边组成的。
f代表失配边
val用来标记终端结点
由于同一个结点可能对应多个字符串的结尾,所以last用来表示此结点沿着失配边走的前一个终端结点,last也叫做后缀链接
刘汝佳大神的模板代码:
struct AhoCorasickAutomata { int ch[MAXNODE][SIGMA_SIZE]; int f[MAXNODE]; int val[MAXNODE]; int last[MAXNODE]; int sz; void init() { sz = 1; memset(ch[0], 0, sizeof(ch[0])); memset(cnt, 0, sizeof(cnt)); } int idx(char c) { return c - ‘a‘; } void insert(char *s, int v) { int u = 0, n = strlen(s); for(int i = 0; i < n; i++) { int c = idx(s[i]); if(!ch[u][c]) { memset(ch[sz], 0, sizeof(ch[sz])); val[sz] = 0; ch[u][c] = sz++; } u = ch[u][c]; } val[u] = v; } void print(int j) { if(j) { printf("%d", val[j]); print(last[j]); } } int find(char* T) { int n = strlen(T); int j = 0; for(int i = 0; i < n; i++) { int c = idx(T[i]); while(j && !ch[j][c]) j = f[j]; j = ch[j][c]; if(val[j]) print(j); else if(last[j]) print(last[j]); } } void getFail() { queue<int> q; f[0] = 0; for(int c = 0; c < SIGMA_SIZE; c++) { int u = ch[0][c]; if(u) f[u] = 0, q.push(u), last[u] = 0; } while(!q.empty()) { int r = q.front(); q.pop(); for(int c = 0; c < SIGMA_SIZE; c++) { int u = ch[r][c]; if(!u) continue; q.push(u); int v = f[r]; while(v && !ch[v][c]) v = f[v]; f[u] = ch[v][c]; last[u] = val[f[u]] ? f[u] : last[f[u]]; } } } };
当然,为了降低时间复杂度,也为了让这个数据结构更像自动机,可以将队列操作中的"if(!u) continue"改为"if(!u) ch[r][c] = ch[f[r]][c]"。这样就不需要反复沿失配边走了,可以把"while(j && !ch[j][c]) j = f[j]"删掉。
原文:https://www.cnblogs.com/hanasaki/p/11198143.html