NER模型如何查看每个识别出的命名实体的score？

Jimin · December 9, 2024, 7:36am

感谢万能的互联网让我遇到HanLP这么好用的库！小白在使用过程中还有一些问题想请教一下。

print(ner([["2021年", "HanLPv2.1", "为", "生产", "环境", "带来", "次", "世代", "最", "先进", "的", "多", "语种", "NLP", "技术", "。"], ["阿婆主", "来到", "北京", "立方庭", "参观", "自然", "语义", "科技", "公司", "。"]], tasks='ner*')

输出格式为：

[[('2021年', 'DATE', 0, 1)], [('北京', 'LOCATION', 2, 3), ('立方庭', 'LOCATION', 3, 4), ('自然语义科技公司', 'ORGANIZATION', 5, 9)]]

每个四元组表示[命名实体, 类型标签, 起始下标, 终止下标]，下标指的是命名实体在单词数组中的下标。

在元组表示中，是否支持传出每个命名实体的预测分数呢？类似如下情况：

{
  "text": "Shanghai",
  "entity": "LOC",
  "score": 0.9984904527664185,
  "start": 392,
  "end": 400
}

hankcs · December 10, 2024, 1:29am

没有现成的接口支持，但你可以override这个方法拿到每个单词到每个tag的分数：

github.com

hankcs/HanLP/blob/022d0fb60cb15c783571d6fdf090161a315ffc7a/hanlp/components/taggers/tagger.py#L65

      
        
                    loss = criterion(out[mask], y[mask])
                return loss
            
            
def decode_output(self, logits, mask, batch, model=None):
                if self.config.get('crf', False):
                    if model is None:
                        model = self.model
                    crf: CRF = model.crf
                    return crf.decode(logits, mask)
                else:
                    return logits.argmax(-1)
            
            
def execute_training_loop(self, trn: DataLoader, dev: DataLoader, epochs, criterion, optimizer, metric, save_dir,
                                      logger: logging.Logger, devices, ratio_width=None, patience=5, teacher=None,
                                      kd_criterion=None, eval_trn=True,
                                      **kwargs):
                best_epoch, best_metric = 0, -1
                timer = CountdownTimer(epochs)
                history = History()
                for epoch in range(1, epochs + 1):
                    logger.info(f"[yellow]Epoch {epoch} / {epochs}:[/yellow]")

Jimin · December 10, 2024, 1:58am

呜呜呜，感谢老师！！！我去试一下