语料库可以看成一种数据库,里面存储的是语言数据。所谓的语料就是语言数据,有很多种形式,最简单的是文本,此外还有音频,视频等。一句话,一段文字就是一份语料。若干个类似的资料集合在一起就是语料库。对这些语言数据(语料)可以进行标注,以达到增值的目的,这里的价值包括研究价值,商业价值等。现在的语料库一般都是研究用的很少有商业用途,但是个人感觉其商业价值是很有潜力的。另,没标注的叫生语料,标注过的叫熟语料。
语料库可以看成一种数据库,里面存储的是语言数据。所谓的语料就是语言数据,有很多种形式,最简单的是文本,此外还有音频,视频等。一句话,一段文字就是一份语料。若干个类似的资料集合在一起就是语料库。对这些语言数据(语料)可以进行标注,以达到增值的目的,这里的价值包括研究价值,商业价值等。现在的语料库一般都是研究用的很少有商业用途,但是个人感觉其商业价值是很有潜力的。另,没标注的叫生语料,标注过的叫熟语料。
原文:https://www.cnblogs.com/weilen/p/8243071.html