已经校正,大家会认可“搬迁合同”是一个词吗?
这个我再考虑一下,有许多知名语料库的确是作一个词的。比如
udc.txt:現存/VERB 的/PART 雙吉/PROPN 寺/PART 建築/NOUN 為/AUX 明朝/PROPN 建築/NOUN ,/PUNCT 整體/NOUN 坐北/VERB 朝南/VERB ./PUNCT
从句法分析来看,在1.x里,搬迁、合同分为两个词,并不影响句法分析的结果, “搬迁”就是修饰“合同”的。
我觉得对于类似的大量合成词,可以采用NER的方式来解决: 拆迁合同、服务中心…… 在NER的时候合成一个词,给需要的人。
这个是受制于CTB语料库的。
北方 NN
和 CC
南方 NN
的 DEG
经济 NN
联系 NN
考虑训练一个人民日报POS模型跟下游模型混合用。
这个可以的
牛奶喝
\color{red}{大多} \color{blue}{少岁} ——> 大 \color{green}{多少} 岁
1 Like
戏 \color{green}{演完} 了
及物 动词
皮蒸制
学雷锋小组
NER不对
的确良
我也来加一个,最近使用中发现的,2.0中 干净 认为是动词,1.x中是形容词,不知道是否与语料库有关
我觉得是ctb规模太小了
嗯嗯,谢谢hankcs老师指点。在使用的过程中,其实也遇到了一些其他的误分情况,就像 比较省力气这句话,省 字在2.0的识别上就会被认定为名词,应该也是语料库中缺少类似的预训练案例吧。
“蟒山” 与 “市” 应分开
参过 ——> 参、过
个气