中文依存树库训练计划

HanLP1.x移植了哈工大的句法分析器,训练自Chinese Dependency Treebank 1.0,又称哈工大信息检索研究中心汉语依存树库。而2.x实现的biaffine模型,训练自斯坦福依存标准的 Chinese Treebank 8.0。两个树库差别非常大,哈工大树库更符合汉语语法(主谓宾定状补),而斯坦福标准则夹杂了短语结构语法(从句、名词修饰)。

我非常希望2.x能继续拥有哈工大标准的模型,但问题是手头没有哈工大语料库。如果有朋友有的话,欢迎联系我一起训练一个新模型。

1 Like

就我这段时间试用的感觉来看:(1)斯坦福标准,基本上都可以与哈工大的对应上(两者可兼容),而且提供的信息说来更丰富(这点尤其明显)。(2)诸如从句(小句)这种说法,汉语语法里面也非常常见,对于分析句子结构能提供更多的帮助。

所以我的建议是如果以后有哈工大语料库,hanlp也依然可以提供两种标准的解析结果,加个参数,大家想要哪种就用哪种😄

感谢反馈意见。

  1. 2.x肯定不局限于一种标准,而是通过加载不同的模型实现不同标准。我编辑了帖子,以免误解。
  2. 我个人比较倾向于依存关系较精简的树库,哈工大依存关系只有15个,标注起来很简单,而斯坦福有44个,标注员可能学不会。
  3. 从句在短语结构树中很常见,但依存句法更多关注词语之间的语法关系,不是句子层面上的关系。比如“银行决定先取得信用评级”在斯坦福体系中是从句补充 ccomp(决定,取得),而在哈工大体系中取得是决定的宾语。

当然,最后肯定是大家各取所需,和而不同。

2 Likes

如此甚好👍

对各种树库规范的了解越深入,我越觉得先进性的排名接近如下:

UD>SD>CDT>Zhang

可能还有其他规范我不了解的,但从长远来看,UD才是依存句法分析的未来。所以我对CDT的兴趣完全没有了,现在关闭这个帖子。