爬虫之数据提取

时间：2021-04-28 16:46:22 阅读：28 评论：0 收藏：0 [点我收藏+]

爬取网页上的内容，如何从内容中提取数据

HTML 文档本身是结构化的文本，有一定的规则，通过它的结构可以简化信息提取。于是，就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中，lxml 有很高的解析效率，支持 xPath 语法（一种可以在 HTML 中查找信息的规则语法）；pyquery 得名于 jQuery（知名的前端 js 库），可以用类似 jQuery 的语法解析网页；还有一个BeautifulSoup。BeautifulSoup特点简单易用，不像正则和 xPath 需要刻意去记住很多特定语法，尽管那样会效率更高更直接。