MLlib是的Spark实现一些常见的机器学习(ML)的功能以及相关的测试和数据生成器。 MLlib目前支持4种常见的类型的机器学习问题的设定,即,二元分类,回归,聚类和协同过滤,以及一个底层原始梯度下降优化。这个指南将概述在MLlib支持的功能,并且还提供调用MLlib的一些例子。
二元分类是一种监督学习算法问题,我们想将实体为两种不同的类别或标签,如,预测邮件是否是垃圾邮件。这个问题涉及到执行一组标签的例子学习算法,即,一组代表通过(数值)特性以及分类标签的实体。算法返回训练模型,该模型可以预测那些底层标签是未知的新实体的标签。
MLlib目前支持两种标准的二元分类模型,即线性支持向量机(向量机)和逻辑回归以及对于每个算法模型的L1和L2规则化随机变量。利用所有潜在的原始梯度下降训练算法的(在下面描述),并采取作为输入正则化参数(regParam)以及各种参数与梯度下降(stepSize,numIterations miniBatchFraction)。
可用的二元分类算法:
SVMWithSGD
LogisticRegressionWithSGD
为了让sbt正确工作,我们需要正确放置SimpleApp位置。scala和simple.sbt根据典型的目录结构。一旦到位,我们可以创建一个JAR包包含应用程序的代码,然后使用sbt/sbt执行我们的程序。
原文:http://blog.csdn.net/myboyliu2007/article/details/19049869