Scrapy笔记

时间：2018-08-23 01:35:19 阅读：173 评论：0 收藏：0 [点我收藏+]

1.工程的创建

scrapy startproject hello

创建文件

scrapy genspider example example.com

===

修改工程中 items的定义

items的作用是定义网上爬取的数据，结构体类似于字典来保存数据

例如

class DoubanMovieItem(scrapy.Item):
    #申明自己要爬去的东西，创建了这样一个类
    # 排名
    ranking = scrapy.Field()
    # 电影名称
    movie_name = scrapy.Field()
    # 评分

修改新创建的example.py文件

1.要爬取的url

2.调用 Request方法

3.parse解析

　　1.调用 response.xpath #解析大模块

　　2.for循环吧解析到的数组进行逐个重新解析，并把数据保存到item字节里

xpath解析（）

如下链接

这个写的的确好，保存成笔记了~

https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154967

还有一个网站，这个写的也行，可是就是感觉说的不是同一回事

http://www.w3school.com.cn/xpath/xpath_functions.asp

======总之爬虫要写好，这个解析语法 F12要多运用运用=======

写完之后运行就可以了

其实还是抄别人的，有的时候会感叹，别人已经走那么远了，我们还追有用吗？

其实不追，那才是放弃才是失败呀。要知道自己喜欢什么和擅长什么，互联网如此，技术如此，生活竞争就是如此。没有门槛那就不会有这么多的贫富差距了

加油，你可以的~

今天，爬虫可以自己跑了，而且还有了这么抓取元素，来爬虫，大概这个已经回50%了，剩下的

1.各种反爬虫机制

2.多实践，以及其他界面的爬虫操作技巧，界面跳转等

3.数据分析，这么呈现好的数据报表

代码放到。。。

https://github.com/callmexuelin/DoubanScrapy

ctrl+alt+t:添加try/catch Pycharm添加异常处理机制的快捷键

Scrapy笔记

原文：https://www.cnblogs.com/asreg/p/9520750.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)