机器学习:
是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能。 对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用。
提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习系统对新事件的适应能力,简单来说泛化能力越强,系统对事件做出的预测就越准确。
数据挖掘:
“数据挖掘”和“知识发现”通常被认为是一样的。在许多场合是可替代的术语。
数据挖掘顾名思义:从海量数据中找出有用的知识。数据挖掘可以认为是 机器学习和数据库的交叉应用。它利用机器学习的技术来分析海量数据,利用数据库技术来管理海量数据。
还有“统计学”,统计学的的很多算法通常需要通过机器学习进一步研究才能变成有效的算法应用到数据挖掘。
从数据分析上来看,绝大部分数据挖掘的技术都应用机器学习技术,但是我们不能认为数据挖掘就是机器学习的一个应用。传统的机器学习并不把海量数据作为研究处理对象,很多技术
都只是适用于中小规模的数据,如果将这些技术应用到海量数据,那么结果会很糟糕。因此数据挖掘还需要对这些技术进行专门的改造。
比如“决策树”,它是一种很好的机器学习技术,不仅泛化能力强而且学习结果是可理解的。传统的做法是把所有数据读入内存进行分析,然而对于海量数据显然不可以,这时候就需要处理,
比如通过引入高效的数据结构和调度策略。
例外,作为一门独立的学科,数据挖掘有他自己“独特”的东西。比如“关联分析”。简单来说关联分析就是从很多数据找出像啤酒喝尿布这样很奇怪但是有意义的关联。如果在100位顾客中有20位购买了尿布,购买尿布的20位顾客中有16位购买了啤酒,那么就可以写成“尿布→啤酒[支持度=20%,置信度=80%]”这样的一条关联规则。
原文:http://www.cnblogs.com/GuoJiaSheng/p/3851034.html