何博士你好!
在使用HanLP生成 句子成分分析结构时,输出结果是不包含功能标签(funciton tag)的,比如 NP-SBJ的, 如果一个NP在谓语短语(VP)中充当 主语成分时,Penn CTB 中有NP-SBJ标签的。
下图是 带功能标签的实例(从网络上截取):
请问:HanLP 目前支持这种带功能标签格式的输出吗?
我目前属于NLP初学者,用词不当之处,请见谅。
谢谢!
何博士你好!
在使用HanLP生成 句子成分分析结构时,输出结果是不包含功能标签(funciton tag)的,比如 NP-SBJ的, 如果一个NP在谓语短语(VP)中充当 主语成分时,Penn CTB 中有NP-SBJ标签的。
下图是 带功能标签的实例(从网络上截取):
请问:HanLP 目前支持这种带功能标签格式的输出吗?
我目前属于NLP初学者,用词不当之处,请见谅。
谢谢!
你指的是sub categories,一般的parser都会按惯例忽略掉。HanLP特地发布了一个支持sub categories的小模型,请参考demo:
输出:
Token PoS 3 4 5 6 7 8 9 10
───────── ────────────────────────────────────────────────────────────────────────
2021年 NT ─────────────────────────────────────────────────────►NP-TMP ────┐
HanLPv2.1 NR ─────────────────────────────────────────────────────►NP-PN-SBJ──┤
带来 VV ────────────────────────────────────────────────────┐ │
最 AD ───►ADVP──┐ │ │
先进 VA ───►VP ───┴►VP ────►IP ───┐ │ │
的 DEC──────────────────────────┴►CP ────►CP ───┐ ├►VP─────────┼►IP
多 CD ───►QP ───┐ │ │ │
语种 NN ───►NP ───┴────────────────────────►NP────┼►NP-OBJ──┘ │
NLP NR ──┐ │ │
技术 NN ──┴────────────────────────────────►NP ───┘ │
。 PU ─────────────────────────────────────────────────────────────────┘
感谢回复,确实就是您的回复中的sub categories。
何老师您好,在采用HanLP 预训练模型hanlp.pretrained.constituency.CTB9_FULL_TAG_ELECTRA_SMALL来生成sub categories后,发现生成的结果与CTB9的文档中描述的结果不同。部分function tag无法正确的输出。这些标签包括:RNR,PRP等。
例如:下图1中是CTB9官方文档(Chinese Treebank Project)的示例,
如果你print(con.vocabs)
,你会发现这些sub categories都是有的。只不过sub categories越多,其中每种分摊的样本数量就越少,也就越难学习。事实上,整个CTB9只有78个句子含有VP-PRP标签。所以学术界一般都不支持sub categories,HanLP可能是唯一一个尝鲜的?我不是这方面的专家,你可以试试 @yzhangcs 的 SuPar 看看,估计也挺难的。
感谢何老师的解答。