HanLP1.x移植了哈工大的句法分析器,训练自Chinese Dependency Treebank 1.0,又称哈工大信息检索研究中心汉语依存树库。而2.x实现的biaffine模型,训练自斯坦福依存标准的 Chinese Treebank 8.0。两个树库差别非常大,哈工大树库更符合汉语语法(主谓宾定状补),而斯坦福标准则夹杂了短语结构语法(从句、名词修饰)。
我非常希望2.x能继续拥有哈工大标准的模型,但问题是手头没有哈工大语料库。如果有朋友有的话,欢迎联系我一起训练一个新模型。
HanLP1.x移植了哈工大的句法分析器,训练自Chinese Dependency Treebank 1.0,又称哈工大信息检索研究中心汉语依存树库。而2.x实现的biaffine模型,训练自斯坦福依存标准的 Chinese Treebank 8.0。两个树库差别非常大,哈工大树库更符合汉语语法(主谓宾定状补),而斯坦福标准则夹杂了短语结构语法(从句、名词修饰)。
我非常希望2.x能继续拥有哈工大标准的模型,但问题是手头没有哈工大语料库。如果有朋友有的话,欢迎联系我一起训练一个新模型。
就我这段时间试用的感觉来看:(1)斯坦福标准,基本上都可以与哈工大的对应上(两者可兼容),而且提供的信息说来更丰富(这点尤其明显)。(2)诸如从句(小句)这种说法,汉语语法里面也非常常见,对于分析句子结构能提供更多的帮助。
所以我的建议是如果以后有哈工大语料库,hanlp也依然可以提供两种标准的解析结果,加个参数,大家想要哪种就用哪种😄
感谢反馈意见。
当然,最后肯定是大家各取所需,和而不同。
如此甚好👍
对各种树库规范的了解越深入,我越觉得先进性的排名接近如下:
UD>SD>CDT>Zhang
可能还有其他规范我不了解的,但从长远来看,UD才是依存句法分析的未来。所以我对CDT的兴趣完全没有了,现在关闭这个帖子。