首页 > 编程语言 > 详细

Python学习笔记之爬虫1

时间:2018-01-02 16:24:22      阅读:327      评论:0      收藏:0      [点我收藏+]

 爬虫的操作步骤:
技术分享图片

 

爬虫三步走

  • 爬虫第一步:使用requests获得数据:
    1.导入requests
    2.使用requests.get获取网页源码
  • import requests
    r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
    

      

      

  • 爬虫第二步:使用BeautifulSoup4解析数据:
    1.导入bs4
    2.解析网页数据
    3.寻找数据
    4.for循环打印
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)

  

  • 爬虫第三步:使用pandas保存数据:
    1.导入pandas
    2.新建list对象
    3.使用to_csv写入
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

   

完整的爬虫

import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
 
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)
 
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

代码运行结果:

技术分享图片

  

Python学习笔记之爬虫1

原文:https://www.cnblogs.com/PeterZhang1520389703/p/8177550.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!