1.一般来说,为了找到BeautifulSoup对象内任何第一个标签入口,使用find()方法。
以上代码是一个生态金字塔的简单展示,为了找到第一生产者,第一消费者或第二消费者,可以使用Beautiful Soup。
找到第一生产者:
生产者在第一个<url>标签里,因为生产者在整个html文档中第一个<url>标签中出现,所以可以使用find()方法找到第一生产者,在ecologicalpyramid.py
中写入下面一段代码,使用ecologicalpyramid.html文件创建BeautifulSoup对象。
from bs4 import BeautifulSoup with open(‘ecologicalpyramid.html‘, ‘r‘) as ecological_pyramid: # ecological 生态系统 pyramid 金字塔 soup = BeautifulSoup(ecological_pyramid) producer_entries = soup.find(‘ul‘) print(producer_entries.li.div.string)
输出结果:plants
2.find()说明
find函数:
find(name, attrs, recursive, text, **wargs) # recursive 递归的,循环的
这些参数相当于过滤器一样可以进行筛选处理。不同的参数过滤可以应用到以下情况:
通过标签查找:
可以传递任何标签的名字来查找到它第一次出现的地方。找到后,find函数返回一个BeautifulSoup的标签对象。
from bs4 import BeautifulSoup with open(‘ecologicalpyramid.html‘, ‘r‘) as ecological_pyramid: soup = BeautifulSoup(ecological_pyramid, ‘html‘) producer_entries = soup.find(‘ul‘) print(type(producer_entries))
输出的得到 <class ‘bs4.element.Tag‘>
通过文本查找:
直接字符串的话,查找的是标签。如果想要查找文本的话,则需要用到text参数。如下所示:
from bs4 import BeautifulSoup with open(‘ecologicalpyramid.html‘, ‘r‘) as ecological_pyramid: soup = BeautifulSoup(ecological_pyramid, ‘html‘) producer_string = soup.find(text = ‘plants‘) print(plants_string)
输出:plants
http://blog.csdn.net/abclixu123/article/details/38502993
原文:http://www.cnblogs.com/keye/p/7868059.html