首页 > 其他 > 详细

文本分类中遇到的小问题总结

时间:2015-03-23 09:27:31      阅读:237      评论:0      收藏:0      [点我收藏+]

1.当语料很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。

比如要转换当前目录下所有文件的编码为utf8

for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done

2.使用fscanf读取文件中的数据时,当数据很大时,往往会失败。这个时候很有可能是我们的语料中出现了它不能识别的

字符,导致了读取失败,造成指针不移动,要重新检查一下你的语料。

3.递归处理文件夹的文件时,这个适合会改变当前的工作目录,加入你的程序中其他地方使用了相对路径,可以会打开文件

失败。

4.测试程序的时候,选择数据量较小的数据进行测试,一来方便检测,而也可以节省时间。

5.对于一些特殊的字符需要处理时,可以准备一个字典,当复查语料信息时,可以加入进去。


未完。

文本分类中遇到的小问题总结

原文:http://blog.csdn.net/xum2008/article/details/44559017

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!