中文信息处理&机器学习-Kmeans实践

时间：2016-06-23 12:36:56 阅读：126 评论：0 收藏：0 [点我收藏+]

　　BagOfWords：

　　1. 见上一篇jieba分词。

　　2. 见上篇，读取分词后文件

　　3. 统计词频并表示成向量：

　　sklearn工具包方法：

from sklearn.feature_extraction.text import CountVectorizer as cv

bows = cv(min_df=2,max_df =10) #词频两次以上，最多10次

原文：http://www.cnblogs.com/250apples/p/5609965.html

踩

(0)

评论一句话评论（0）

分享档案

更多>