新的中文MTL模型发布

大家好,今天HanLP的开源模型和RESTful同步升级了新的MTL模型,主要带来2点改进:

  1. 精校的中文分词语料库上训练,准确率大幅提升,粗分细分区别更明显
  2. 依存句法分析升级为Universal Dependencies体系

关于UD体系,相较于SD体系的优势在于:

  1. UD设计和维护团队包括斯坦福大学和Google的世界一流语言学家,而SD仅仅由斯坦福大学一家维护
  2. SD已经很久没有更新,特别是中文,自从2009年之后几乎没有更新。而UD是SD的官方指定升级版,每年都会发布一个中版本
  3. SD是投射的,而UD是非投射的。投射解析速度快,可视化方便,但限制也多,非投射解析稍慢,无法在等宽字体中可视化,但语法表示更灵活
  4. SD最明显的问题在于,有相当多的未定义依赖关系(dep),而UD则少很多。具体说来,SD有 22420410.8%)个未定义依赖,而UD只有 654786.5%),也就是说UD覆盖的语法现象更多了。
  5. SD只支持中英,但UD支持几乎所有的人类语言

举一个直观的例子,旧模型无法准确识别下句“映红”的被动态:

Dep Tree        	Tok	Relation 
────────────────	───	─────────
          ┌─►┌──	我  	assmod   
          │  └─►	的  	assm     
       ┌─►└─────	希望 	top      
┌┬─────┴────────	是  	root     
│└─►┌───────────	希望 	ccomp    
│   │     ┌─►┌──	张晚霞	assmod   
│   │     │  └─►	的  	assm     
│   │  ┌─►└─────	背影 	nsubjpass
│   └─►└──┬─────	被  	ccomp    
│         │  ┌─►	晚霞 	nsubj    
│         └─►└──	映红 	dep      
└──────────────►	。  	punct   

但是UD却可以:

Dep Tree     	Tok	Relation   
─────────────	───	───────────
       ┌─►┌──	我  	nmod:assmod
       │  └─►	的  	case       
    ┌─►└─────	希望 	nsubj      
    │     ┌─►	是  	cop        
┌┬──┴─────┴──	希望 	root       
││     ┌─►┌──	张晚霞	nmod:assmod
││     │  └─►	的  	case       
││  ┌─►└─────	背影 	nsubjpass  
││  │    ┌──►	被  	auxpass    
││  │    │┌─►	晚霞 	nsubj      
│└─►└────┴┴──	映红 	ccomp      
└───────────►	。  	punct  

为了兼容性,SD的模型仍然会保留。为了区别,UD系列的DEP模型将称作UDEP,比如新的MTL模型命名:

CLOSE_TOK_POS_NER_SRL_UDEP_SDP_CON_ELECTRA_SMALL_ZH

欢迎大家在应用的过程中,提出宝贵意见。

1 Like

Nice work

1 Like