首页 > Web开发 > 详细

Beautiful Soup 如何获取到href

时间:2020-07-03 18:38:04      阅读:44      评论:0      收藏:0      [点我收藏+]

直接上代码, 你需要修改一下黄色的部分。

from bs4 import BeautifulSoup
import requests

main(url):

html = requests.get(url, timeout=30) #获取网页
soup = BeautifulSoup(html, ‘lxml‘) #获取lxml树
liTags = soup.find_all(‘li‘, attrs={‘class‘: ‘aaa‘})#获取li标签,类名为aaa
comments = [] #初始化一个数组,存放每个li中需要保存的项
for li in liTags: # 迭代器获取每个标签的属性值
  comment[‘href‘] =li.find(‘a‘, attrs={‘class‘: ‘bbb‘}, href = True).attrs[‘href‘]) #找到a标签下,类名为bbb,属性值
  comment[‘title‘] =li.find(‘a‘, attrs={‘class‘: ‘bbb‘}, href = True).attrs[‘title‘]) #找到a标签下,类名为bbb,属性值
  comment[‘text‘] = li.find(‘span‘,attrs={‘class‘:‘ccc‘}).text.strip() #获取span标签下,类名为ccc的文本

一般来说,网页中li标签下的内容,是我们想要的,所以:
1、把所有li标签提取出来, li 可以通过class, id, name, title等等方式匹配。
2、迭代的方式,在每个里标签下,把你想要的标签下内容提取出来,除了class标签,其他的所有标签值都是可以提取出来的,包括title, id, name, ...

标签下有用的内容,有两种获取方式:
.attrs 和 .text

需要注意的是,标签匹配的时候,需要把空格去掉。例如: ‘ aaa‘和‘aaa‘不是同样的标签,如果‘ aaa‘, 可能导致匹配不成功。

Beautiful Soup 如何获取到href

原文:https://www.cnblogs.com/montai/p/13231722.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!