机器学习题目

时间：2015-06-04 13:17:49 阅读：276 评论：0 收藏：0 [点我收藏+]

训练数据集中的每个样本用n维向量表示，第n维数据的值是0或者1，建立分类算法，对于新的给定样本，已知向量前n-1维数据，预测向量最后一维的值。

1）数据中关系到选择或者建立分类算法的2个最重要的属性是什么？为什么？

2）现在已知两个分类算法，第一个算法训练花费时间5h,预测每个样本时间为1.5ms, 正确率86%; 第二个算法，训练花费时间30min,预测每个样本时间为2.5ms, 正确率95%, 应该选择哪个，为什么？

1、两个最重要的属性我认为是目标变量的离散还是连续以及前n-1维变量中是否存在连续值。这会影响到分类算法的选择。
2、根据需要预测的样本数量和对正确率的要求来选择。预测效率降低了66%，准确率只提高了10%。

原文：http://www.cnblogs.com/lbingkuai/p/4551340.html

踩

(0)

评论一句话评论（0）

分享档案

更多>