自然语言处理
基于规则
基于统计
统计语言模型
中文分词
梁南元--查字典
郭进--统计语言模型
Basis Technology 通用分词器
葛显平、朱安
隐含马尔科夫模型
信息熵
贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特
统计语音识别和自然语言处理
雅让斯基、布莱尔
阿米特.辛格
搜索引擎:自动下载尽可能多的网页---》建立快速有效的索引---》根据相关性对网页进行公平准确的排序
搜索原理:下载----》索引-----》排序
布尔代数:George Boole:与、或、非
莱布尼兹
图论:网络爬虫:遍历
欧拉----图论
DFS:深度优先搜索、广度优先搜索
哈希表
如何构建一个网络爬虫?----》如何在有限时间里最多地爬下最重要的网页?
网络爬虫:分布式系统:成千上万的服务器
浏览器内核工程师---》网络爬虫解析程序
网页排名技术
PageRank:
网页链接、承认和依赖
二维矩阵相乘
稀疏矩阵计算
2003:MapReduce
整个互联网--整体--系统论
相关性:网页内容与查询语句、网页之间的联系
查询与内容相关性
关键词的频率:单文本词频:Term Frequency
萨尔顿 Salton IDF
地图和本地搜索:有限状态机和动态规划
地址匹配技术、有限状态机
有限状态机:AT&T:莫瑞、皮耶尔、瑞利
全球导航和动态规划(Dynamic Programming)
寻找全程最短路线---》寻找局部最短路线
辛格、马特.克茨、马丁.柯斯尔基
作弊问题:Spam
乌迪.曼波、费尔南多.皮耶尔
密码学
凯撒大帝
亚德丽:独臂海盗:中国黑室
RSA:李维斯特Rivest、沙米尔Shamir、阿德尔曼Adleman
香农:信息论,信息检索,现代密码学
冯诺依曼:现代电子计算机、博弈论
搜索引擎反作弊
搜索引擎优化者、SEO
余弦距离、余弦定理
最大熵原理、最大熵模型
柯林斯
布莱尔
马尔科夫链:贝叶斯网络
主题、概念、关键词:Phil Cluster
原文:http://www.cnblogs.com/defineconst/p/4296033.html