多模式串的匹配運用 --- HDU 3065
阿新 • • 發佈:2019-02-12
// Memory Time
// 1347K 0MS
// by : Snarl_jsb
// 2014-09-30-21.00
#include<algorithm>
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<iostream>
#include<vector>
#include<queue>
#include<stack>
#include<map>
#include<string>
#include<climits>
#include<cmath>
#define LL long long
using namespace std;
char backup[1002][53];
int res[1002];
const int N = 1010;
char str[2000010];
struct node
{
node *next[26]; // 每個結點都對應26個字母的指標
node *fail; // 失配指標
int count; //
int num;
node() // 建構函式初始化
{
for(int i = 0; i < 26; i++)
next [i] = NULL;
count = 0;
num=0;
fail = NULL;
}
}*q[50*N];
node *root;
int head, tail;
void Insert(char *str,int num) // 插入單詞.相當於構建一個Trie樹
{
node *p = root;
int i = 0, index;
while(str[i])
{
index = str[i] - 'A'; // 轉化為相對數字來存
if(p->next[index] == NULL) // 該字母未插入過
p->next[index] = new node(); // 為該字母申請一個結點
p = p->next[index]; // 移至下一個
i++;
}
p->count++; // 記錄該結點的單詞總共插入的次數
p->num=num;
}
void build_ac_automation(node *root) // bfs建立fail指標
{
root->fail = NULL;
q[tail++] = root;
while(head < tail) {
node *temp = q[head++];
node *p = NULL;
for(int i = 0; i < 26; i++) {
if(temp->next[i] != NULL) {
if(temp == root) temp->next[i]->fail = root;
else {
p = temp->fail;
while(p != NULL) {
if(p->next[i] != NULL) {
temp->next[i]->fail = p->next[i];
break;
}
p = p->fail;
}
if(p == NULL) temp->next[i]->fail = root;
}
q[tail++] = temp->next[i];
}
}
}
}
int Query(node *root) // 匹配 + 統計
{
int i = 0, cnt = 0, index;
node *p = root;
while(str[i])
{
index = str[i] - 'A';
if(index<0||index>25) ///這個地方要特別注意,由於病毒只包含大寫字母,所以這兒需要剪枝,不剪枝的話其他地方加判斷也可以過
{
p=root;
i++;
continue;
}
while(p->next[index] == NULL && p != root) //字首是相同的,所以不管哪個指標走到了count不為0的結點上,那麼該結點所代表的單詞就匹配成功
p = p->fail;//失配情況下,p指標指向p->fail.(相當於KMP的next陣列)
p = p->next[index];//由於現在所在的位置是父節點,所以需要向下移動一個位置
if(p == NULL)
p = root; //如果匹配失敗,移動到root,重新開始匹配
node *temp = p;//
while(temp != root && temp->count>0) //統計--如果匹配成功,那麼count>1,表示該結點代表的單詞數量;否則表示該結點沒有單詞
{
// cnt += temp->count; //統計該單詞出現的次數
res[temp->num]++; //每次回溯都會加1
// temp->count = -1; //!!!!!!!!!!!!!!!!!(如果要重複統計,請講這句去掉)!!!!!!!!標記為-1,表示該單詞已經加入了cnt中
temp = temp->fail;//判斷整條鏈上的匹配情況
}
i++;
}
return cnt;
}
int main()
{
int n,m;
while(cin>>n)
{
head = tail = 0; // 清零
root = new node(); // 申請新的root結點
memset(backup,0,sizeof(backup));
memset(res,0,sizeof(res));
for(int i=1;i<=n;++i)
{
scanf("%s",str);
strcpy(backup[i],str);
Insert(str,i);
}
build_ac_automation(root);
scanf("%s",str);
Query(root);
for(int i=1;i<=n;++i)
{
if(res[i])
{
printf("%s: %d\n",backup[i],res[i]);
}
}
}
return 0;
}
// 1347K 0MS
// by : Snarl_jsb
// 2014-09-30-21.00
#include<algorithm>
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<iostream>
#include<vector>
#include<queue>
#include<stack>
#include<map>
#include<string>
#include<climits>
#include<cmath>
#define LL long long
using namespace std;
char backup[1002][53];
int res[1002];
const int N = 1010;
char str[2000010];
struct node
{
node *next[26]; // 每個結點都對應26個字母的指標
node *fail; // 失配指標
int count; //
int num;
node() // 建構函式初始化
{
for(int i = 0; i < 26; i++)
next
count = 0;
num=0;
fail = NULL;
}
}*q[50*N];
node *root;
int head, tail;
void Insert(char *str,int num) // 插入單詞.相當於構建一個Trie樹
{
node *p = root;
int i = 0, index;
while(str[i])
{
index = str[i] - 'A'; // 轉化為相對數字來存
if(p->next[index] == NULL) // 該字母未插入過
p->next[index] = new node(); // 為該字母申請一個結點
p = p->next[index]; // 移至下一個
i++;
}
p->count++; // 記錄該結點的單詞總共插入的次數
p->num=num;
}
void build_ac_automation(node *root) // bfs建立fail指標
{
root->fail = NULL;
q[tail++] = root;
while(head < tail) {
node *temp = q[head++];
node *p = NULL;
for(int i = 0; i < 26; i++) {
if(temp->next[i] != NULL) {
if(temp == root) temp->next[i]->fail = root;
else {
p = temp->fail;
while(p != NULL) {
if(p->next[i] != NULL) {
temp->next[i]->fail = p->next[i];
break;
}
p = p->fail;
}
if(p == NULL) temp->next[i]->fail = root;
}
q[tail++] = temp->next[i];
}
}
}
}
int Query(node *root) // 匹配 + 統計
{
int i = 0, cnt = 0, index;
node *p = root;
while(str[i])
{
index = str[i] - 'A';
if(index<0||index>25) ///這個地方要特別注意,由於病毒只包含大寫字母,所以這兒需要剪枝,不剪枝的話其他地方加判斷也可以過
{
p=root;
i++;
continue;
}
while(p->next[index] == NULL && p != root) //字首是相同的,所以不管哪個指標走到了count不為0的結點上,那麼該結點所代表的單詞就匹配成功
p = p->fail;//失配情況下,p指標指向p->fail.(相當於KMP的next陣列)
p = p->next[index];//由於現在所在的位置是父節點,所以需要向下移動一個位置
if(p == NULL)
p = root; //如果匹配失敗,移動到root,重新開始匹配
node *temp = p;//
while(temp != root && temp->count>0) //統計--如果匹配成功,那麼count>1,表示該結點代表的單詞數量;否則表示該結點沒有單詞
{
// cnt += temp->count; //統計該單詞出現的次數
res[temp->num]++; //每次回溯都會加1
// temp->count = -1; //!!!!!!!!!!!!!!!!!(如果要重複統計,請講這句去掉)!!!!!!!!標記為-1,表示該單詞已經加入了cnt中
temp = temp->fail;//判斷整條鏈上的匹配情況
}
i++;
}
return cnt;
}
int main()
{
int n,m;
while(cin>>n)
{
head = tail = 0; // 清零
root = new node(); // 申請新的root結點
memset(backup,0,sizeof(backup));
memset(res,0,sizeof(res));
for(int i=1;i<=n;++i)
{
scanf("%s",str);
strcpy(backup[i],str);
Insert(str,i);
}
build_ac_automation(root);
scanf("%s",str);
Query(root);
for(int i=1;i<=n;++i)
{
if(res[i])
{
printf("%s: %d\n",backup[i],res[i]);
}
}
}
return 0;
}