关于overfit的随笔

时间：2015-02-24 12:30:19 阅读：232 评论：0 收藏：0 [点我收藏+]

看到@ 爱可可-爱生活转发的文章。稍微看了下，在这里记录下。

overfit是机器学习的一个重要概念。在狭义上可以定义为模型过于复杂，导致模型的generalization不够好。我认为应采用一个广义的定义凡是generalization不行的，都可以定义为overfit。从我的定义出发的话，可以认为这个文章围绕overfit展开，从三个方面讨论了这个新手老鸟都会犯的错误。

第一部分概述了overfit，这一部分可看作从建模的复杂度来讨论overfit，你的模型越复杂越容易overfit。其中overfit是memorizing而不是learning的比喻很贴切。我们需要通过something学到规律而不是仅仅简单的记住someting。我补充下，overfit可以通过bayes的prior来引入regulatization，从而提高generalization。

第二部分从数据的角度来讨论overfit，你用来训练的数据也会带来overfit。这部分可分成两个小节：首先，bias的训练数据当然会bias你的预测，generalization不够好，overfit随之产生。其次，leakage的训练数据，会引入测试数据的规律到模型中，等于您白测了，cross-validating的hyper-param作废了，不能generalization，于是overfit又来了。的确很多论文都没注意这一点，微软就闹过这种笑话。

关于overfit的随笔

原文：http://www.cnblogs.com/congliu/p/4298572.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)