首页 > 其他 > 详细

不用SCRAPY也可以应用selector

时间:2020-02-06 13:45:18      阅读:173      评论:0      收藏:0      [点我收藏+]

在PY文件中:

from scrapy.selector import Selector
from scrapy.http import HtmlResponse

url="https://m.mm131.net/"
r=requests.get(url)
r.encoding=‘gbk‘  #根据情况可设置为utf-8
body=r.text
tx=Selector(text=body).xpath(‘//h2[@class="mm-title"]/text()‘).extract()
tx1=Selector(text=body).xpath(‘//article[@class="post"]/div‘).extract()
tx1=Selector(text=body).xpath(‘//article[@id="post-1"]/div‘).extract()
tx2=re.findall(‘src="(http.*?.jpg)"‘,str(tx1))
tx4=re.findall(‘data-img="(http.*?.jpg)"‘,str(tx1))
#tx2=re.findall(‘[^(gif)]‘,str(tx2))
tx3=re.findall(‘href="(.*?)"‘,str(tx1))
#print(tx4)
#print(tx2)
#print(tx3)
#print(tx1)
for aa in list(set(tx4)):
    adir=aa.split(‘/‘)[-2]
    name=aa.split(‘/‘)[-1]
    time.sleep(3)
    if os.path.exists(wz+adir+"/"):
        pass
    else:
        os.mkdir(wz+adir+"/")
    #break
    
    fname=wz+adir+"/"+adir+name
    print(fname)
    baocun(aa,fname)
    #break
    

  

不用SCRAPY也可以应用selector

原文:https://www.cnblogs.com/xkdn/p/12268259.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!