RapidMiner提供了可视化的数据挖掘技术,可视化建模简化了数据挖掘的工作,其5.3版本是开源的版本(代码全部用Java实现),但这个版本缺少对hadoop的支持(rm6已经支持hadoop,但6的版本是不开放源码的),现因工作需要,需要在5.3开源版本的基础上添加hadoop组件,支持以hadoop中的数据作为数据源,进行数据挖掘相关工作。
RapidMiner studio是RapidMiner的客户端,其核心功能由operator(操作因子)、process(挖掘任务)、Repository(存储库)组成。
operator包含数据导入导出、数据转换、数据建模、模型评估等功能。
process由operator组成。
Repository是存储库,用来存放procss的配置信息等。
存储库分为本地和远程(即server端)二种,RapidMiner server除了存放挖掘任务的配置信息外,主要负责任务的调度运行。
要添加RapidMiner对hadoop的支持,先需要研究清楚当前5.3版本的源码,以了解其架构,以下是对RapidMiner源码的学习研究:
三 :RapidMiner Studio之Action源码分析
四 :RapidMiner Studio之Process源码分析
五 :RapidMiner studio之Operator源码分析
RapidMiner5.3下载地址:https://my.rapidminer.com/nexus/account/index.html#downloads
RapidMiner5.3源码地址:https://github.com/rapidminer/rapidminer
原文:http://www.cnblogs.com/fairy511/p/4644670.html