首页 > 其他 > 详细

Scrapy笔记

时间:2018-08-23 01:35:19      阅读:172      评论:0      收藏:0      [点我收藏+]

1.工程的创建 

scrapy startproject hello

创建文件

scrapy genspider example example.com

 

===

修改工程中 items的定义

items的作用是定义网上爬取的数据,结构体类似于字典来保存数据

例如

class DoubanMovieItem(scrapy.Item):
#申明自己要爬去的东西,创建了这样一个类
# 排名
ranking = scrapy.Field()
# 电影名称
movie_name = scrapy.Field()
# 评分

 修改新创建的example.py文件
1.要爬取的url
2.调用 Request方法
3.parse解析
  1.调用 response.xpath   #解析大模块
  2.for循环吧解析到的数组进行逐个重新解析,并把数据保存到item字节里
xpath解析()
如下链接
这个写的的确好,保存成笔记了~
https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154967
 
还有一个网站,这个写的也行,可是就是感觉说的不是同一回事
http://www.w3school.com.cn/xpath/xpath_functions.asp
 
======总之爬虫要写好,这个解析语法 F12要多运用运用=======
 写完之后运行就可以了
 
 其实还是抄别人的,有的时候会感叹,别人已经走那么远了,我们还追有用吗?
其实不追,那才是放弃才是失败呀。要知道自己喜欢什么和擅长什么,互联网如此,技术如此,生活竞争就是如此。没有门槛那就不会有这么多的贫富差距了
加油,你可以的~
今天,爬虫可以自己跑了,而且还有了这么抓取元素,来爬虫,大概这个已经回50%了,剩下的
1.各种反爬虫机制
2.多实践,以及其他界面的爬虫操作技巧,界面跳转等
3.数据分析,这么呈现好的数据报表
 
代码放到。。。
https://github.com/callmexuelin/DoubanScrapy
 
 

ctrl+alt+t:添加try/catch   Pycharm添加异常处理机制的快捷键

Scrapy笔记

原文:https://www.cnblogs.com/asreg/p/9520750.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!