PCFG:对于公式这种复杂结构,要语言语言辅助它
红色:尺寸比较小,连到下一行了
角度、距离。。。剔除异常
绿色的,同一个字符内部 。。。所以要注意调发阈值。。。
中心线,上下边距,倾斜角度
可以中文先识别一遍,置信度不高的再英文识别一遍
好处:局部算法;不同阈值可以抽取出不同粒度的实体
加特征、小的分类器
图的背景色先验等
原文:https://www.cnblogs.com/cx2016/p/13871867.html