中文依存树库训练计划

hankcs · February 28, 2020, 11:08pm

HanLP1.x移植了哈工大的句法分析器，训练自Chinese Dependency Treebank 1.0，又称哈工大信息检索研究中心汉语依存树库。而2.x实现的biaffine模型，训练自斯坦福依存标准的 Chinese Treebank 8.0。两个树库差别非常大，哈工大树库更符合汉语语法（主谓宾定状补），而斯坦福标准则夹杂了短语结构语法（从句、名词修饰）。

我非常希望2.x能继续拥有哈工大标准的模型，但问题是手头没有哈工大语料库。如果有朋友有的话，欢迎联系我一起训练一个新模型。

AliBug · February 29, 2020, 1:29am

就我这段时间试用的感觉来看：（1）斯坦福标准，基本上都可以与哈工大的对应上（两者可兼容），而且提供的信息说来更丰富（这点尤其明显）。（2）诸如从句（小句）这种说法，汉语语法里面也非常常见，对于分析句子结构能提供更多的帮助。

所以我的建议是如果以后有哈工大语料库，hanlp也依然可以提供两种标准的解析结果，加个参数，大家想要哪种就用哪种😄

hankcs · February 29, 2020, 1:59am

感谢反馈意见。

2.x肯定不局限于一种标准，而是通过加载不同的模型实现不同标准。我编辑了帖子，以免误解。
我个人比较倾向于依存关系较精简的树库，哈工大依存关系只有15个，标注起来很简单，而斯坦福有44个，标注员可能学不会。
从句在短语结构树中很常见，但依存句法更多关注词语之间的语法关系，不是句子层面上的关系。比如“银行决定先取得信用评级”在斯坦福体系中是从句补充 ccomp(决定，取得），而在哈工大体系中取得是决定的宾语。

当然，最后肯定是大家各取所需，和而不同。

AliBug · February 29, 2020, 3:05am

如此甚好👍

hankcs · January 24, 2021, 6:45pm

对各种树库规范的了解越深入，我越觉得先进性的排名接近如下：

UD>SD>CDT>Zhang

可能还有其他规范我不了解的，但从长远来看，UD才是依存句法分析的未来。所以我对CDT的兴趣完全没有了，现在关闭这个帖子。

hankcs · January 24, 2021, 6:45pm