请教SRL的BIO模型在CoNLL05 benchmark上的复现性能

yzhangcs · September 9, 2021, 7:41am

您好，观察到HanLP当中包含了SpanBIO模型的复现代码，直接采用的是Biaffine+CRF的方式
这和一些论文中采用的方法不太一样，例如Shi et al. 2019对每个谓词对应的序列都输入到encoder编码一次，Xu et al. 2015等人的工作没有使用Biaffine等等
由于我自己复现的BIO Biaffine+CRF的模型性能不太理想，因此想请教您是否观察过HanLP在CoNLL05 benchmark上的复现性能？
尤其是w/o & w/ gold predicate的场景，以及w/ BERT的场景
谢谢！

hankcs · September 10, 2021, 2:16am

这么做开销很大。

我简单试验了一下，没有仔细调参。使用bert-base-cased，w/o gold predicate，在conll05 in-domain（wsj）的性能如下：

P: 86.26% R: 87.14% F1: 86.70%

在out-of-domain（brown）上的性能如下：

P: 77.55% R: 78.65% F1: 78.10%

根据Li et al. (2019)的数据，w/o gold predicate比w/ gold predicate低3个点。所以估计HanLP在w/ gold predicate情况下的性能大约是89.7和81.1，是超过Shi et al. 2019的88.1和80.9的。

训练日志：

log.zip (2.8 KB)

训练代码：

from hanlp.components.srl.span_bio.span_bio import SpanBIOSemanticRoleLabeler
from hanlp.layers.embeddings.contextual_word_embedding import ContextualWordEmbedding

srl = SpanBIOSemanticRoleLabeler()
save_dir = 'data/model/conll05/srl_english_uncased'
srl.fit(
    'data/srl/conll05/train.english.conll05.jsonlines',
    'data/srl/conll05/dev.english.conll05.jsonlines',
    save_dir,
    embed=ContextualWordEmbedding(
        'token',
        'bert-base-uncased',
        average_subwords=True,
        max_sequence_length=512,
        word_dropout=.2,
    ),
    lr=1e-3,
    transformer_lr=5e-5,
    epochs=30,
    gradient_accumulation=1,
    crf=True,
)
srl.load(save_dir)
srl.evaluate('data/srl/conll05/test_wsj.english.conll05.jsonlines', save_dir)
srl.evaluate('data/srl/conll05/test_brown.english.conll05.jsonlines', save_dir)
print(f'Model saved in {save_dir}')

数据预处理：

github.com

bcmi220/unisrl/blob/master/scripts/conll05_to_json.py

#!/usr/bin/env python

import itertools
import re
import os
import sys
import json
import tempfile
import subprocess
import collections


def flatten(l):
  return [item for sublist in l for item in sublist]


class DocumentState(object):
  def __init__(self):
    self.doc_key = None
    self.text = []

This file has been truncated. show original

hankcs · September 10, 2021, 3:55pm

bert-base-uncased还要高一个点：

P: 86.76% R: 87.35% F1: 87.05%
P: 79.02% R: 79.24% F1: 79.13%

yzhangcs · September 14, 2021, 5:26am

感谢详细的回复
我会仔细对比下我的代码和HanLP的差异，后面有结论我会在这里贴一下
另外上面的结果基于的似乎是HanLP里的SpanF1 metric？这应该和其他论文里使用的CoNLL05 SRL脚本不太一致，我个人观察Span F1应该会高0.6左右
不过HanLP中的复现也非常高了，相信在正确谓词下应该可能超过Shi et al. 2019，Shi et al. 2020还有Zhang et al. 2020汇报的结果
如果没有debug成功我会直接采用HanLP的代码跑出一些baseline的结果（十分欣赏HanLP优雅全面的实现
谢谢！

hankcs · September 14, 2021, 6:54am

其实HanLP实现了所谓的官方SRL评测（暂时仅SpanRankingSemanticRoleLabeler支持），记得跟Span F1误差约0.1个点：

github.com

hankcs/HanLP/blob/master/hanlp/components/srl/span_rank/span_rank.py#L184


        sentences += batch['token']
        gold += batch['srl']
        pred += output_dict['prediction']
    self.update_metrics(batch, output_dict, metric)
    loss = output_dict['loss']
    total_loss += loss.item()
    timer.log(self.report_metrics(total_loss / (timer.current + 1), metric), ratio_percentage=None,
              logger=logger,
              ratio_width=ratio_width)
    del loss
if official:
    scores = compute_srl_f1(sentences, gold, pred)
    if logger:
        if confusion_matrix:
            labels = sorted(set(y for x in scores.label_confusions.keys() for y in x))
            headings = ['GOLD↓PRED→'] + labels
            matrix = []
            for i, gold in enumerate(labels):
                row = [gold]
                matrix.append(row)
                for j, pred in enumerate(labels):

误差没有0.6那么大，不知道你指的是不是seqeval包里的f1，它其实是label f1，那个误差挺大的。
官方评测脚本写得很烂，交换pred与gold得到的F1居然不一样。我看的上一篇paper是采用交换之后的平均值作为最终分值。后来除非对方注明使用了conll脚本，否则我是不愿意用的，毕竟再官方也是错误的。

yzhangcs · September 14, 2021, 7:29am

不知道你指的是不是seqeval包里的f1。

是的，这个脚本应该是专为gold predicate场景设计的，评价gold predicate没有问题，但是不适合现在end-to-end方法评价。这是因为那个脚本评价总是依赖于正确谓词，如果错了直接丢弃全部arguments。因此end-to-end下，R值总是正确的，但是P值会偏高。
最近的工作大多是采取迂回的方式，采用gold/pred交换后评价出的两列R值分别作为正确的P值和R值（例外的是LISA，只评价了一次，导致P偏高，R正确，结果较真实的F值82.51高了快一个点）。
我个人也感觉直接Span F1比较好，但是大部分工作都汇报的是SRLEVAL的结果，有点积重难返。曾经想尝试将这个转化为python代码，但是尝试了发现他内部采取了非常多的特殊处理（唯一我感觉到的是c-prefix，即C-X跟着X视为一个X），因此也搞不下去了，非常难和这个脚本输出的数值对齐。

yzhangcs · September 14, 2021, 1:42pm

我定位到了代码的bug（偶然因素全0初始化的转移矩阵未加入优化器），目前复现出来的结果（使用srleval评价）：
w/o gold predicate

P: 85.90% R: 88.41% F: 87.13%

w/ gold predicate

P: 88.05% R: 88.48% F: 88.27%

感觉在不使用词向量和LSTM的场景下已经和Shi et al. 2019差不多了。
另外由于参考了HanLP的实现，对其中的一些代码有一点小疑问

github.com

hankcs/HanLP/blob/doc-zh/hanlp/components/srl/span_bio/span_bio.py#L370-L380


def prediction_to_result(self, prediction: List, batch: Dict[str, Any], delimiter=None) -> List:
    if delimiter is None:
        delimiter = self.config.delimiter
    for matrix, tokens in zip(prediction, batch['token']):
        result = []
        for i, arguments in enumerate(matrix):
            if arguments:
                pas = [(delimiter.join(tokens[x[1]:x[2]]),) + x for x in arguments]
                pas.insert(bisect([a[1] for a in arguments], i), (tokens[i], PRED, i, i + 1))
                result.append(pas)
        yield result

这里没理解错的话，是对每个候选谓词都做完整viterbi解码，根据解码出来的结果判断对应位置是否是谓词是吗（训练同理）？

github.com

hankcs/HanLP/blob/doc-zh/hanlp/components/srl/span_bio/span_bio.py#L209-L212


if self.config.crf:
    token_index = mask3d[0]
    pred = pred.flatten(end_dim=1)[token_index]
    pred = F.log_softmax(pred, dim=-1)

这里要使用CRF，log_softmax应该是多加了？

hankcs · September 14, 2021, 10:14pm

学习了，感谢指出。

我个人觉得SRL从最初任务的设计和评估，到后来主流span-based抛弃了constituency的做法都存在许多历史问题，所以没有深入研究。

是的。训练的话，不管有没有谓词，都有相应的loss。

可有可无吧，HanLP使用的CRF实现里面对emission score是直接相加的，所以提前log可能比较stable？

github.com

hankcs/HanLP/blob/bce4a4e2dabcc9e0a07bfa3f8eed3ae351657041/hanlp/layers/crf/crf.py#L215


score = self.start_transitions[tags[0]]
score += emissions[0, torch.arange(batch_size), tags[0]]
for i in range(1, seq_length):
    # Transition score to next tag, only added if next timestep is valid (mask == 1)
    # shape: (batch_size,)
    score += self.transitions[tags[i - 1], tags[i]] * mask[i]
    # Emission score for next tag, only added if next timestep is valid (mask == 1)
    # shape: (batch_size,)
    score += emissions[i, torch.arange(batch_size), tags[i]] * mask[i]
# End transition score
# shape: (batch_size,)
seq_ends = mask.long().sum(dim=0) - 1
# shape: (batch_size,)
last_tags = tags[seq_ends, torch.arange(batch_size)]
# shape: (batch_size,)
score += self.end_transitions[last_tags]
return score

去掉之后似乎变差了一点点。

P: 86.96% R: 87.17% F1: 87.07%
P: 78.49% R: 79.10% F1: 78.80%

yzhangcs · September 18, 2021, 10:25am

@hankcs Hi，我试了试用span-based方法训练。w/o gold predicate训练正常，但是w/ gold predicate训练失败了，这应该是bug？
以下是报错信息

Epoch 1 / 10:
Traceback (most recent call last):
  File "span.py", line 46, in <module>
    srl.fit(
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_rank.py", line 349, in fit
    return super().fit(**merge_locals_kwargs(locals(), kwargs))
  File "/home/yzhang/HanLP/hanlp/common/torch_component.py", line 287, in fit
    return self.execute_training_loop(**merge_dict(config, trn=trn, dev=dev, epochs=epochs, criterion=criterion,
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_rank.py", line 98, in execute_training_loop
    self.fit_dataloader(trn, criterion, optimizer, metric, logger,
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_rank.py", line 126, in fit_dataloader
    output_dict = self.feed_batch(batch)
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_rank.py", line 376, in feed_batch
    output_dict = self.model(batch)
  File "/home/yzhang/anaconda3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_ranking_srl_model.py", line 488, in forward
    return self.decoder.decode(batch, contextualized_embeddings, sent_lengths, masks, gold_arg_starts, gold_arg_ends,
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_ranking_srl_model.py", line 427, in decode
    pred_emb = self.batch_index_select(candidate_pred_emb,
  File "/home/yzhang/HanLP/hanlp/components/srl/span_rank/span_ranking_srl_model.py", line 240, in batch_index_select
    .view(indices.size()[0], indices.size()[1], -1)
IndexError: tuple index out of range

以下是训练脚本

from hanlp.components.srl.span_rank.span_rank import SpanRankingSemanticRoleLabeler
from hanlp.layers.embeddings.contextual_word_embedding import ContextualWordEmbedding


for seed in range(4):
    srl = SpanRankingSemanticRoleLabeler()
    save_dir = 'model'
    srl.fit(
        'data/srl/conll05/train.english.conll05.jsonlines',
        'data/srl/conll05/dev.english.conll05.jsonlines',
        save_dir,
        embed=ContextualWordEmbedding(
            'token',
            'bert-large-cased',
            average_subwords=True,
            max_sequence_length=512,
            word_dropout=.1
        ),
        context_layer=None,  # 代码做了一点修改，去掉了context_layer
        transformer_lr=5e-5,
        batch_max_tokens=1000,
        epochs=10,
        gradient_accumulation=1,
        official=True,
        lexical_dropout=0.1,
        loss_reduction='mean',
        use_gold_predicates=True,
        seed=seed
    )
    srl.load(save_dir)
    srl.evaluate('data/srl/conll05/dev.english.conll05.jsonlines', save_dir, official=True)
    srl.evaluate('data/srl/conll05/test_wsj.english.conll05.jsonlines', save_dir, official=True)
    srl.evaluate('data/srl/conll05/test_brown.english.conll05.jsonlines', save_dir, official=True)

hankcs · September 18, 2021, 7:03pm

感谢反馈，已经修复：