汉语口语文本中非流利现象的依存句法分析

现有的依存句法分析工具主要是基于书面语文本。有没有适用于口语转写文本的依存句法分析器?Universal dependencies中有 "reparandum: overridden disfluency"这一句法标签来表示口语中的非流利现象,诸如“ UD_Chinese-GSDSimp”等中文公开树库也已采用该标签。请问有没有办法在HanLP的依存句法分析中输出这一句法关系呢?

当然可以,你可以用2.0训练一个UD Chinese的分析器,语料格式是兼容的。不过UD中文量级很小,听说标注质量也不好,最终效果还未可知。2.1也准备发布UD的预训练分析器,兑现多语种的承诺。