[爬虫技术收集整理]
[通用知识]
- 正则表达式中各种字符的含义
- Web Crawler Slide share
- Quick & Dirty Python
[Java语言]
- [知了开发]“知了”优化 - WebMagic 调优
- ContentExtractor开源网页正文抽取工具
- 垂直型爬虫架构设计
- 分布式网络爬虫的基本实现简述
- 分布式多爬虫系统——架构设计
- httpclient 多线程高并发Get请求
- Java爬虫框架WebMagic的使用总结
- Async Http Client
- OkHttp
- OkHttp:Java 平台上的新一代 HTTP 客户端
- 《HttpClient 官方文档》第五章 Fluent API
[Python语言]
- pip requirements导出当前项目所用的包list列表
- python实现RESTful服务(基于flask)
- nosetest
- 为什么有人说 Python 的多线程是鸡肋呢?
[定向技术]
- Mining Twitter Data with Python
- Enterprise data -- Twitter Developers
- 基于搜狗微信搜索的微信公众号爬虫
- 爬取搜索引擎之搜狗
爬虫技术收集整理
原文:http://www.cnblogs.com/azcode/p/7858373.html