/html /html/head/title 绝对路径(一层层的查找) /html//title 相对于当前节点 //title/./../.. . 当前节点 ..父节点 ../following-sibling::dd[1]/a 上一级的兄弟节点 //head/meta/@http-equiv 提取标签属性值 //title/text() 提取开闭标签之间的文本内容 / 隔开的的是节点(除了尾部出现的之外)
//body/div[3]/div/div[1]/div[position()>10]
//body/div[3]/div/div[1]/div[last()]
//div[@id="aa_tag_121536487"] //div[@id]
//span[i>2000]
//div[contains(@id,"aa_tag_")]
//div[text()="下一页"]/@href
//*[contains(text(),"下一")]
path1|xpath2
In [1]: import urllib In [2]: a=‘http://baidu.com?kw=100‘ In [3]: b=‘?abc=123‘ In [4]: urllib.parse.urljoin(a,b) Out[4]: ‘http://baidu.com?abc=123‘
response.urljoin(node.xpath(‘uri‘))
原文:https://www.cnblogs.com/returnes/p/10466710.html