大家好,今天HanLP的开源模型和RESTful同步升级了新的MTL模型,主要带来2点改进:
- 在精校的中文分词语料库上训练,准确率大幅提升,粗分细分区别更明显
- 依存句法分析升级为Universal Dependencies体系
关于UD体系,相较于SD体系的优势在于:
- UD设计和维护团队包括斯坦福大学和Google的世界一流语言学家,而SD仅仅由斯坦福大学一家维护
- SD已经很久没有更新,特别是中文,自从2009年之后几乎没有更新。而UD是SD的官方指定升级版,每年都会发布一个中版本
- SD是投射的,而UD是非投射的。投射解析速度快,可视化方便,但限制也多,非投射解析稍慢,无法在等宽字体中可视化,但语法表示更灵活
- SD最明显的问题在于,有相当多的未定义依赖关系(dep),而UD则少很多。具体说来,SD有
224204
(10.8%
)个未定义依赖,而UD只有65478
(6.5%
),也就是说UD覆盖的语法现象更多了。 - SD只支持中英,但UD支持几乎所有的人类语言
举一个直观的例子,旧模型无法准确识别下句“映红”的被动态:
Dep Tree Tok Relation
──────────────── ─── ─────────
┌─►┌── 我 assmod
│ └─► 的 assm
┌─►└───── 希望 top
┌┬─────┴──────── 是 root
│└─►┌─────────── 希望 ccomp
│ │ ┌─►┌── 张晚霞 assmod
│ │ │ └─► 的 assm
│ │ ┌─►└───── 背影 nsubjpass
│ └─►└──┬───── 被 ccomp
│ │ ┌─► 晚霞 nsubj
│ └─►└── 映红 dep
└──────────────► 。 punct
但是UD却可以:
Dep Tree Tok Relation
───────────── ─── ───────────
┌─►┌── 我 nmod:assmod
│ └─► 的 case
┌─►└───── 希望 nsubj
│ ┌─► 是 cop
┌┬──┴─────┴── 希望 root
││ ┌─►┌── 张晚霞 nmod:assmod
││ │ └─► 的 case
││ ┌─►└───── 背影 nsubjpass
││ │ ┌──► 被 auxpass
││ │ │┌─► 晚霞 nsubj
│└─►└────┴┴── 映红 ccomp
└───────────► 。 punct
为了兼容性,SD的模型仍然会保留。为了区别,UD系列的DEP模型将称作UDEP,比如新的MTL模型命名:
CLOSE_TOK_POS_NER_SRL_UDEP_SDP_CON_ELECTRA_SMALL_ZH
欢迎大家在应用的过程中,提出宝贵意见。