（11）基于MLlib的机器学习

时间：2017-01-26 17:18:27 阅读：221 评论：0 收藏：0 [点我收藏+]

11.1 概述

MLlib的设计理念非常简单，把数据以RDD的形式表示，然后分布式数据集上调用各种算法。

需要注意的是，MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中，就是因为他们不嗯给你并行执行。相反地，一些较新的研究得出的算法因为适用于集群，也被包含在MLlib中，例如分布式随机森林算法。这样的选择使得MLlib中的每一个算法都适用于大规模数据集。如果你要在许多小规模数据集上训练各机器学习模型，最好还是在各节点上使用单节点的机器学习算法库实现。在Spark中，你可以用过把参数列表传给parallelize来在不同的节点上分别运行不同的参数，而在每个节点上则使用单节点的机器学习库来实现。

11.2 系统要求

MLlib需要你的机器预装一些线性代数的库。

你需要安装gfortran运行库
如果你要在Python中使用MLlib，需要安装Numpy

11.3 机器学习基础

11.4 数据类型

11.5 算法

（11）基于MLlib的机器学习

原文：http://www.cnblogs.com/cyoutetsu/p/6351724.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)