使用Python抓取QQ音乐库数据时,音乐名中出现一些奇怪字符,下面的抓取结果中,《执迷不悔 (国语)》就变成了“执迷不悔 (国语)”:
Python自带的HTMLParser模块可以解决这个问题:
html = ‘(Hello)‘
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html)
使用cgi模块还可以反转结果:
import cgi
html = cgi.escape(txt)
原文:http://www.cnblogs.com/007wangkai/p/4359397.html