Beautiful Soup 如何获取到href

时间：2020-07-03 18:38:04 阅读：49 评论：0 收藏：0 [点我收藏+]

直接上代码, 你需要修改一下黄色的部分。

from bs4 import BeautifulSoup

import requests

main(url):

html = requests.get(url, timeout=30) #获取网页

soup = BeautifulSoup(html, ‘lxml‘) #获取lxml树
liTags = soup.find_all(‘li‘, attrs={‘class‘: ‘aaa‘})#获取li标签,类名为aaa

comments = [] #初始化一个数组，存放每个li中需要保存的项

for li in liTags: # 迭代器获取每个标签的属性值

　　comment[‘href‘] =li.find(‘a‘, attrs={‘class‘: ‘bbb‘}, href = True).attrs[‘href‘]) #找到a标签下，类名为bbb，属性值

　　comment[‘title‘] =li.find(‘a‘, attrs={‘class‘: ‘bbb‘}, href = True).attrs[‘title‘]) #找到a标签下，类名为bbb，属性值

　　comment[‘text‘] = li.find(‘span‘,attrs={‘class‘:‘ccc‘}).text.strip() #获取span标签下，类名为ccc的文本


一般来说，网页中li标签下的内容，是我们想要的，所以：
1、把所有li标签提取出来， li 可以通过class, id, name, title等等方式匹配。 
2、迭代的方式，在每个里标签下，把你想要的标签下内容提取出来，除了class标签，其他的所有标签值都是可以提取出来的，包括title, id, name, ...

标签下有用的内容，有两种获取方式：
.attrs 和 .text

需要注意的是，标签匹配的时候，需要把空格去掉。例如： ‘ aaa‘和‘aaa‘不是同样的标签，如果‘ aaa‘, 可能导致匹配不成功。

Beautiful Soup 如何获取到href

原文：https://www.cnblogs.com/montai/p/13231722.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)