首页 > 其他 > 详细

《爬虫》爬取可用的免费IP

时间:2020-04-08 16:45:13      阅读:120      评论:0      收藏:0      [点我收藏+]
import telnetlib
import urllib.request
from bs4 import BeautifulSoup

for d in range(1, 3):  # 采集1到2页
	scrapeUrl = ‘http://www.xicidaili.com/nn/%d/‘ % d
	req = urllib.request.Request(scrapeUrl)
	req.add_header(‘User-Agent‘, ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘)
	response = urllib.request.urlopen(req)
	html = response.read()

	bsObj = BeautifulSoup(html, "html.parser")

	for i in range(100):
		speed = float(bsObj.select(‘td‘)[6 + i * 10].div.get(‘title‘).replace(‘秒‘, ‘‘))
		if speed < 0.2:  # 验证速度,只要速度在0.2秒之内的
			ip = bsObj.select(‘td‘)[1 + i * 10].get_text()
			port = bsObj.select(‘td‘)[2 + i * 10].get_text()
			ip_address = ‘http://‘ + ip + ‘:‘ + port
			try:
				telnetlib.Telnet(ip, port=port, timeout=2)  # 用telnet对ip进行验证
			except:
				print(‘fail‘)
			else:
				print(‘sucess:‘ + ip_address)
				f = open(‘proxy_list.txt‘, ‘a‘)
				f.write(ip_address + ‘\n‘)
				f.close()

  

《爬虫》爬取可用的免费IP

原文:https://www.cnblogs.com/shuimohei/p/12660070.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!