利用shuf对数据记录进行随机采样

时间：2014-08-01 13:31:11 阅读：350 评论：0 收藏：0 [点我收藏+]

最近在用SVM为分类器做实验，但是发现数据量太大（2000k条记录）但是训练时间过长...让我足足等了1天的啊！有人指导说可以先进行一下随机采样，再训练，这样对训练结果不会有太大影响（这个待考证）。所以就对数据进行了一下降采样，具体方法如下：

shuf data | head -n 100000

其中，我的数据是在txt文件中存储的，基本格式是：

record 1 xxxxx
record 2 xxxxx
record 3 xxxxx
record 4 xxxxx
 ...........
record n xxxxx

原文：http://www.cnblogs.com/beanocean/p/3884684.html

踩

(0)

评论一句话评论（0）

分享档案

更多>