自然语言处理,NLP,接下来的几篇博客将从四方面来展开:
(一)基本概念和基础知识
(二)研究层次和主要问题
(三)研究方法
(四)应用
1.什么是NLP?
自然语言处理(Natural Language Processing : NLP) ,就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
——冯志伟《自然语言的计算机处理》 1996
2.为什么学习NLP?
问题一:巴别塔问题
如何跨越语言的鸿沟? 自动机器翻译是一种可能的解决方案。它是自然语言处理的终极目标之一,涉及到计算语言学的方方面面。
问题二:信息爆炸
如何从这些海量的信息中准确地获取用户真正需要的信息? 信息检索 信息抽取 主题爬虫 信息过滤、个性化推荐 舆情分析、情报分析
问题三:自动问答
IBM的沃森系统:沃森是一个问答机系统(Question Answering Machine,简称 QAM)。问答机和简单搜索之间有个重要的区别。搜索常返回好几页链接,从中可能找到答案。而问答机,要模型评分返回一个最具代表性的正确答案。
图灵测试
现有的问答系统 –Ask.com、百度知道、新浪爱问、雅虎知识堂 -哈工大信息检索实验室 –PowerSet:Natural Language Search?
3.NLP的研究和应用
(1)机器翻译
利用计算机将一种自然语言文本自动翻译成另一种自然语言文本
方法分类:基于规则的方法,基于统计的方法,基于实例的方法,混合方法
应用:Systran,google翻译,iciba.com, 有道翻译;ZZX_MT,moses,丝路等。
(2)自动问答
通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。
应用场景: 提问“xx的诞辰” (事实类问题) 提问“xx思想的形成” (综合类或者列表类问题) 提问“比较x和x” (比较类问题)
应用实例:普通在线式——Ask.com;社区问答——Baidu知道、yahoo!回答等;IBM的沃森
(3)语音处理(speech processing)
相关研究:
语音识别:将输入语音信号自动转换成书面文字
语音合成:将文本转换成语音
言者识别(speaker recognition):识别特定人
应用场景:通过电话获得航班信息或者预订宾馆 语音输入
(4)信息检索
从大量文档中检索出用户需要的信息
涉及主要问题: 理解用户的需求 检索出和用户相关的信息 以用户满意的方式展示
应用场景:从google上检索“苹果”的信息
成功应用:Google.com, baidu.com
(5)信息抽取
从指定文本、WEB网页中抽取出用户感兴趣的信息
应用场景:
实体关系抽取 宋祖英首场台湾演唱会为慈善周杰伦做嘉宾捧场
抽取出淘宝商城或者网上书城中各种商品的信息
(6)其他应用
自动文摘
信息过滤
情感分析 ……
5.推荐课程
https://github.com/yandexdataschool/nlp_course
原文:https://www.cnblogs.com/sybil-hxl/p/12881509.html