hanlp2.1句法分析结果

使用hanlp2.1过程中发现句法分析结果貌似有些不太对,如下结果:
分词结果:
[[‘转让’, ‘金融商品增值税’, ‘为什么’, ‘购入价’, ‘中’, ‘包含’, ‘的’, ‘应收利息’, ‘或者’, ‘股利’, ‘不’, ‘扣除’, ‘掉’]]
句法分析结果:
[[(12, ‘dep’), (1, ‘dobj’), (12, ‘advmod’), (5, ‘lobj’), (6, ‘loc’), (12, ‘nsubj’), (6, ‘cpm’), (10, ‘conj’), (10, ‘cc’), (12, ‘nsubj’), (12, ‘neg’), (0, ‘root’), (12, ‘rcomp’)]]
比如词语“购入价”对应的句法分析结果为(5, ‘lobj’),lobj对应的标注为时间介词,明显结果不合适。
我觉得可能是自定义词典导致的,于是测试了一下弃用词典的结果:


发现结果一样,想请教一下大佬这是什么导致的呢,能不能避免?多谢了!

lobj其实是localizer object,本意是方位词,在SD标准下是修饰起到限定作用的时间、位置词语后的某个介词。比如:

find . -name 'train.conllx' -exec grep -i 'lobj' {} \; -print | tail -n 20
6	脚	_	NN	NN	_	7	lobj	_	_
5	网站	_	NN	NN	_	6	lobj	_	_
7	资料	_	NN	NN	_	8	lobj	_	_
10	医学	_	NN	NN	_	11	lobj	_	_
7	家	_	NN	NN	_	8	lobj	_	_
23	二百	_	CD	CD	_	24	lobj	_	_
3	年	_	M	M	_	4	lobj	_	_
5	三万	_	CD	CD	_	6	lobj	_	_
11	世界	_	NN	NN	_	12	lobj	_	_
4	头	_	NN	NN	_	5	lobj	_	_
7	实验室	_	NN	NN	_	8	lobj	_	_
16	一万	_	CD	CD	_	17	lobj	_	_
3	屋檐	_	NN	NN	_	4	lobj	_	_
10	我	_	PN	PN	_	11	lobj	_	_
10	专业	_	NN	NN	_	11	lobj	_	_
1	语言	_	NN	NN	_	2	lobj	_	_
9	新年	_	NT	NT	_	10	lobj	_	_
1	新年	_	NT	NT	_	2	lobj	_	_
5	工作	_	NN	NN	_	6	lobj	_	_

可见并不仅仅是时间词,还有很多位置、数词以及其他表示局部的名词。文档中翻译为时间介词是不对的,已经改为了局部限定语。

至于你的例子,“中”作为“购物价”的限定语是合理的。类似于这个黄金例子:

1	国家	_	NN	NN	_	3	nn	_	_
2	外汇	_	NN	NN	_	3	nn	_	_
3	管理局	_	NN	NN	_	9	nsubj	_	_
4	在	_	P	P	_	9	prep	_	_
5	新	_	JJ	JJ	_	6	amod	_	_
6	办法	_	NN	NN	_	7	lobj	_	_
7	中	_	LC	LC	_	4	plmod	_	_
8	明确	_	AD	AD	_	9	advmod	_	_
9	规定	_	VV	VV	_	0	root	_	_
1 Like

感谢百忙之中的回复,改为局部限定语就OK了,这个问题应该是标注集里面lobj对应的中文解释造成了。感谢您的回复!!!