因为参与了创新计划,所以懵懵懂懂的接触到了网络爬虫。
爬数据使用工具,因此了解到Python、asp.net等可以用来抓数据。
想想在学习.net的时候根本没有想到会使用在这个上面——书本上的知识都是死的,那学习的基础知识只能通过不断的拓展使用领域才能在更好的得到深化、应用!
进入一个陌生的领域,从入门到精通的路真的是需要用汗水积累起来的——没有真正的天才,只有自感聪明的蠢材。(自我审视)
有句话说的特别的好:“世界上两种聪明的人:一种是从来不认为自己聪明的聪明人;而另一种是自以为自己很聪明的‘聪明人’。”——天才=99.99%汗水+0.01%聪明
学习爬虫的时间,更多的是在吸取前辈的经验,更多的是走一遍优秀规则的代码,还是实例实践更有助于知识的融会贯通。
pardon!like a bot!不怕,把cookies历史清一清就好使用了。
在抓取数据之前最重要的一项就是要搞清楚自己抓取数据的网络结构,明确自己的目标数据。
连续规则的抓取重要是要把记号标志和定位编号设置好。
整理箱的使用要结合样例复制,优化规则的设置。
原文:http://www.cnblogs.com/dxcstu/p/CrazyKing.html