首页 > 编程语言 > 详细

Python爬虫学习(二)使用Beautiful Soup库

时间:2020-01-31 00:24:12      阅读:93      评论:0      收藏:0      [点我收藏+]

(一)使用Beautiful Soup库

  1,安装Beautiful Soup库:pip install beautifulsoup4

  2,简单使用:

import requests;
from _socket import timeout
from bs4 import BeautifulSoup         #使用Beautiful Soup库需要导包
#from aifc import data
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)  
        r.raise_for_status()           #如果连接状态不是200,则引发HTTPError异常
        r.encoding=r.apparent_encoding #使返回的编码正常
        print("连接成功")
        return r.status_code
    except:
        print("连接异常")
        return r.status_code

url="https://python123.io/ws/demo.html"
#keywords={"ip":"202.204.80.112"}
access={"user-agent":"Mozilla/5.0"}              #设置访问网站为浏览器Mozilla5.0
if getHTMLText(url)==200:
    r=requests.get(url, headers=access)        
    #print(r.encoding)
    r.encoding=r.apparent_encoding
    demo=r.text
    soup=BeautifulSoup(demo,"html.parser")      #解析HTML页面,使用html.parser解析器
    print(soup.prettify())                      #打印HTML代码
   print(soup.a.attrs) #打印出该HTML文件的第一个a标签的属性,获得一个字典型数据;可以根据soup.a.attrs[‘href‘]获取链接
  print(soup.a.name)             #打印第一个a标签的标签名
print(soup.a.parent.name) #打印出第一个a标签的父标签的标签名
 

  3,原理:

    技术分享图片

 

 

     技术分享图片

 

 

 (二)

  1,基本要素

    技术分享图片

     使用beautiful Soup库进行HTML遍历

 

 

     技术分享图片

 

    

     技术分享图片

 

    技术分享图片

 

 

     技术分享图片

 

Python爬虫学习(二)使用Beautiful Soup库

原文:https://www.cnblogs.com/lq13035130506/p/12244359.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!