句子成分分析输出的格式是否可以包含功能标签(function tag)

何博士你好!

在使用HanLP生成 句子成分分析结构时,输出结果是不包含功能标签(funciton tag)的,比如 NP-SBJ的, 如果一个NP在谓语短语(VP)中充当 主语成分时,Penn CTB 中有NP-SBJ标签的。

下图是 带功能标签的实例(从网络上截取):

请问:HanLP 目前支持这种带功能标签格式的输出吗?

我目前属于NLP初学者,用词不当之处,请见谅。
谢谢!

1 Like

你指的是sub categories,一般的parser都会按惯例忽略掉。HanLP特地发布了一个支持sub categories的小模型,请参考demo:

输出:

Token    	PoS    3       4       5       6       7       8         9            10
─────────	────────────────────────────────────────────────────────────────────────
2021年    	NT ─────────────────────────────────────────────────────►NP-TMP ────┐   
HanLPv2.1	NR ─────────────────────────────────────────────────────►NP-PN-SBJ──┤   
带来       	VV ────────────────────────────────────────────────────┐            │   
最        	AD ───►ADVP──┐                                         │            │   
先进       	VA ───►VP ───┴►VP ────►IP ───┐                         │            │   
的        	DEC──────────────────────────┴►CP ────►CP ───┐         ├►VP─────────┼►IP
多        	CD ───►QP ───┐                               │         │            │   
语种       	NN ───►NP ───┴────────────────────────►NP────┼►NP-OBJ──┘            │   
NLP      	NR ──┐                                       │                      │   
技术       	NN ──┴────────────────────────────────►NP ───┘                      │   
。        	PU ─────────────────────────────────────────────────────────────────┘   
1 Like

感谢回复,确实就是您的回复中的sub categories。

何老师您好,在采用HanLP 预训练模型hanlp.pretrained.constituency.CTB9_FULL_TAG_ELECTRA_SMALL来生成sub categories后,发现生成的结果与CTB9的文档中描述的结果不同。部分function tag无法正确的输出。这些标签包括:RNR,PRP等。
例如:下图1中是CTB9官方文档(Chinese Treebank Project)的示例,


而图2对应的输出变成了

请问有最新的预训练模型可以比较完整的支持CTB9中所述function tag?
借助这些function tag 可以对动词的不同形态,不同句式进行较为准确的识别,对于语义的理解会起到重要的作用。

如果你print(con.vocabs),你会发现这些sub categories都是有的。只不过sub categories越多,其中每种分摊的样本数量就越少,也就越难学习。事实上,整个CTB9只有78个句子含有VP-PRP标签。所以学术界一般都不支持sub categories,HanLP可能是唯一一个尝鲜的?我不是这方面的专家,你可以试试 @yzhangcsSuPar 看看,估计也挺难的。

感谢何老师的解答。