首页 > 编程语言 > 详细

python学习笔记——提取网页信息BeautifulSoup4

时间:2018-05-22 23:12:32      阅读:759      评论:0      收藏:0      [点我收藏+]

1 BeautifulSoup概述

beautifulSoup是勇python语言编写的一个HTML/XML的解析器,它可以很好地处理不规范标记并将其生成剖析树(parse tree);

它提供简单而又常见的导航(navigating),搜索及修改剖析树,此可以大大节省编程时间

2 BeautifulSoup安装

2.1 安装

pip install beautifuilsoup4

当安装不成功时,首先查看windows的命令提示符是否是以管理员身份打开的。

然后再检查其他因素

2.2 使用

from bs4 import BeautifulSoup

这是由于“造”库函数所致,其他引用方法易致错。

 

没有安装成功!当时显示安装包已经在文件夹中

C:\Windows\system32>pip install beautifulsoup4
Requirement already satisfied: beautifulsoup4 in c:\users\admin\appdata\local\programs\python\python36-32\lib\site-packages (4.6.0)

C:\Windows\system32>python
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import bs4 import BeautifulSoup
  File "<stdin>", line 1
    import bs4 import BeautifulSoup
                    ^
SyntaxError: invalid syntax
>>> import BeautifulSoup
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named BeautifulSoup
>>>

3 beautifulsoup与lxml比较

lxml    C实现,只会局部遍历,快;        复杂,语法不太友好;

BS4     Python实现,会加载整个文档,慢; 简单,API人性化;

详细信息可以参考beautifulsoup文档:Beautiful Soup 4.2.0 文档

Python爬虫利器二之Beautiful Soup的用法

 

python学习笔记——提取网页信息BeautifulSoup4

原文:https://www.cnblogs.com/gengyi/p/9074396.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!