转自:http://www.coderjie.com/blog/43b3601e0a2411e7841d00163e0c0e36
1.块在内存中以树的形式存储,分好块的文本在文件中用IOB标记存储:
I(inside,内部),O(outside,外部),B(begn,开始)。
如果一个单词被标记为B,则表示一个块的开始,块内的单词被标记为I,其他单词被标记为O。B和I标记后需要加块类型的后缀,如B-NP,I-NP。如下图所示:
文本方式的IOB格式存储如下:
We PRP B-NP saw VBD O the DT B-NP yellow JJ I-NP dog NN I-NP
NLTK中包含一个已经分好块的语料库conll2000,该语料库的部分内容如下:
原文:https://www.cnblogs.com/BlueBlueSea/p/10588273.html