数据科学

时间：2014-05-27 01:38:43 阅读：396 评论：0 收藏：0 [点我收藏+]

作者：Vamei 出处：http://www.cnblogs.com/vamei 欢迎转载，也请保留这段声明。谢谢！

数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理，从数据中提取信息，进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件，你会发现数据科学已经在情报领域广泛使用。)

bubuko.com,布布扣

在这系列文章中，我希望能完成从概率论，统计，到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的，而概率论是统计的基础。随着计算机处理能力的增强，一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体，包括一些在计算机领域中发展的算法，也包括一些传统统计中已经存在，但受限于计算能力的统计方法。另一方面，从数据中提炼知识是机器学习的主要目的，这与统计推断密切相关。因此，从传统的概率和统计出发，更容易理解机器学习的内涵。

当然，这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子，以便能形成更好的触觉。编程工具会以Python语言为主，配以第三方的包，如Numpy, Scipy, Matplotlib, scikit-learn。统计和机器学习同样可以在其他语言中实现，比如Matlab和R语言。如果你熟悉相应的工具，不难写出类似功能的代码。