搜狗输入法的分词算法

时间：2015-07-18 17:10:42 阅读：1441 评论：0 收藏：0 [点我收藏+]

搜狗输入法最近的用户输入中出现了一种新的输入模式，形如 “0k1234567”，搜狗的工程师发现这一模式后了解到，这是一种新被提出的对于十五进制数字的标记模式，其中 “0k” 是标记进制为15的前缀标记，之后的部分 “1234567” 是实际的十五进制的数字串。
在发现这一标记模式后，搜狗的工程师开始尝试在已有的分词算法上进一步加入对于十五进制数字串的处理，把网页上的这种形式的 15 进制数正确地提取出来。我们知道，标记十五进制的 “0k” 中 k 必须是小写，数字 0 到 14 在这套标记模式下会被依次表示为：0k0, 0k1, ..., 0k9, 0kA, 0kB, 0kC, 0kD, 0kE。也就是说 15 进制数字中只会出现 0-9、k 和 A-E。
值得注意的是，数字表示中不能有多余的 0，比如 0k05 是不能被当做一个十五进制数字的。另外，作为一种约定，当出现 “0k90k8” 时，只有 0k90 是符合期望的十五进制数字，即总是从左至右依次提取出最长的十五进制数字。如果希望表达 0k9 和 0k8 这两个数字的连写情况时，则会被写成 “0k9‘0k8” 这一的形式（单引号代表其他任意非数字字符）。
搜狗的工程师希望将用户输入中符合上述要求的所有十五进制数依次输出。你能帮他实现么？
输入格式
输入一行字符串 str (1 ≤ |str| ≤ 106)，表示搜狗工程师得到的用户输入。用户输入中的字符一定是数字 (0 - 9) 或大小写英文字母 (a - z, A - Z)。
输出格式
输出包括若干行，每行输出一个提取出的十五进制数（形式如同：0k1234），分别对应输入字符串中含有的若干个符合标记模式的十五进制数字；输出时，请以数字在原字符串中的顺序依次输出。
样例1
输入：
sjfjfhua0kA0000lmNhdhahdfhGgdJG90K10k110k120kF
输出：
0kA0000
0k110

思路：

当时交了好多次。需要注意；

1. 0k后面紧跟着0时，就只输出0k0,如果是0k000005还是输出0k0

2. 0k0k5时，应该输出0k0

3.如果0k第i+2个不是0,在所要求的范围内，那就输出这个字符，直到不满足要求字符break; 然后继续往后判断~

4.如果0k后面不满足所要求给的字符的话，就不输出0k

#include<iostream>
#include<stdio.h>
#include<string.h>
using namespace std;
char a[1000001];
int main()
{
	int len,i,j,flag=0;
    gets(a);
    len=strlen(a);
    for(i=0;i<len-2;i++)
      {
      	if(a[i]=='0'&&a[i+1]=='k')
      	{
      		if(a[i+2]>='A'&&a[i+2]<='E'||a[i+2]>='0'&&a[i+2]<='9')
      		 printf("0k");
			if(a[i+2]=='0')
			{
					printf("0");
			
				i=i+2;
				printf("\n");
			}
			else{
				flag=0;
      		for(j=i+2;j<len;j++)
      		{
				if(a[j]>='A'&&a[j]<='E'||a[j]>='0'&&a[j]<='9')
      			  {
      			  	printf("%c",a[j]);
					flag=1;
      			  }
      			  else
      			   break;
				
			}
			i=j;
			if(flag)
      		printf("\n");
			}
      	}
      }

	return 0;
}

搜狗输入法的分词算法

原文：http://blog.csdn.net/zuguodexiaoguoabc/article/details/46942743

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)