python学习笔记——提取网页信息BeautifulSoup4

时间：2018-05-22 23:12:32 阅读：765 评论：0 收藏：0 [点我收藏+]

1 BeautifulSoup概述

beautifulSoup是勇python语言编写的一个HTML/XML的解析器，它可以很好地处理不规范标记并将其生成剖析树(parse tree)；

它提供简单而又常见的导航（navigating），搜索及修改剖析树，此可以大大节省编程时间

2 BeautifulSoup安装

2.1 安装

pip install beautifuilsoup4

当安装不成功时，首先查看windows的命令提示符是否是以管理员身份打开的。

然后再检查其他因素

2.2 使用

from bs4 import BeautifulSoup

这是由于“造”库函数所致，其他引用方法易致错。

没有安装成功！当时显示安装包已经在文件夹中

C:\Windows\system32>pip install beautifulsoup4
Requirement already satisfied: beautifulsoup4 in c:\users\admin\appdata\local\programs\python\python36-32\lib\site-packages (4.6.0)

C:\Windows\system32>python
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import bs4 import BeautifulSoup
  File "<stdin>", line 1
    import bs4 import BeautifulSoup
                    ^
SyntaxError: invalid syntax
>>> import BeautifulSoup
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named ‘BeautifulSoup‘
>>>

3 beautifulsoup与lxml比较

lxml C实现，只会局部遍历,快；复杂，语法不太友好；

BS4 Python实现，会加载整个文档,慢；简单，API人性化；

详细信息可以参考beautifulsoup文档：Beautiful Soup 4.2.0 文档

Python爬虫利器二之Beautiful Soup的用法

python学习笔记——提取网页信息BeautifulSoup4

原文：https://www.cnblogs.com/gengyi/p/9074396.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)