感谢万能的互联网让我遇到HanLP这么好用的库!小白在使用过程中还有一些问题想请教一下。
进行命名实体识别时:
print(ner([["2021年", "HanLPv2.1", "为", "生产", "环境", "带来", "次", "世代", "最", "先进", "的", "多", "语种", "NLP", "技术", "。"], ["阿婆主", "来到", "北京", "立方庭", "参观", "自然", "语义", "科技", "公司", "。"]], tasks='ner*')
输出格式为:
[[('2021年', 'DATE', 0, 1)], [('北京', 'LOCATION', 2, 3), ('立方庭', 'LOCATION', 3, 4), ('自然语义科技公司', 'ORGANIZATION', 5, 9)]]
每个四元组表示
[命名实体, 类型标签, 起始下标, 终止下标]
,下标指的是命名实体在单词数组中的下标。
在元组表示中,是否支持传出每个命名实体的预测分数呢?类似如下情况:
{
"text": "Shanghai",
"entity": "LOC",
"score": 0.9984904527664185,
"start": 392,
"end": 400
}