首页 > 编程语言 > 详细

python识别网站所用技术

时间:2020-02-26 10:03:52      阅读:70      评论:0      收藏:0      [点我收藏+]

  最近在学习一些python爬虫,我们要爬取一个站点,首先要去查看网站的robots协议,如果明确禁止抓取了要遵守,否则可能会带来麻烦。第二步我们要知道网站是用什么技术做的,如何通过python的方法来识别呢?可以用builtwith库来实现(注意是builtwith不是buildwith),当然前提是安装了python

  安装方法,win+r,cmd,输入如下代码

pip install builtwith

  如果已经安装好了,会出现下面的提示

技术分享图片

 

  进入python

import builtwith

builtwith.parse(‘https://abc.com‘)

  显示如下

技术分享图片

 

   但builtwith毕竟是机器判断,有时不一定正确,只可作为参考

import builtwith

builtwith.parse(‘https://www.cnblogs.com/ytkah‘)

  运行结果如下,但是不一定准确

技术分享图片

 

   ytkah最近写了比较多的woocommerce文章,所以它判断是wordpress创建的,其实这个是博客园的博客系统,是.net制作的,主页的底部就可以看到

技术分享图片

 

   感兴趣的朋友可以安装测试一下

 

 

  

python识别网站所用技术

原文:https://www.cnblogs.com/ytkah/p/12365192.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!