前面讲到将每篇文章的URL写入Item,但是每个url的长度是不同的,
可以在Item中设置一个字段怎样使得每个URL的长度相同,这就需要对每个URL进行md5
运算,使得长度统一,再加入到设定的Item字段中
从项目的根目录下新建一个文件夹,把所有能用到的自定义方法写入,,命名为util
并从util下新建一个common.py文件
写入以下:
1 import hashlib 2 def get_md5(url): 3 if isinstance(url,str): 4 url = url.encode("utf-8") 5 m = hashlib.md5() 6 m.update(url) 7 return m.hexdigest()
最后从jobbole.py中引入该方法,并写入Item这个字段
from ArticalSpider.util.common import get_md5 artical_item["url_object_id"] = get_md5(response.url)
至此,所有的Item字段都添加完毕,剩下的就是写入数据库了
Scrapy基础————将不定长度的URL进行固定长度写入Item中
原文:http://www.cnblogs.com/ruoniao/p/6894027.html