中文实体识别时，句子长度限制问题

Harth · August 11, 2020, 12:09pm

在github和论坛上没找到相关的问题。
就是在中文实体识别中，当句子长度大于126个字符时会报警，并忽略之后的字符。请问有方法可以设置句子最大长度吗
exceed the max sequence length of 126. The exceeded part will be truncated and ignored. You are recommended to split your long text into several sentences within 126 tokens beforehand.

这是我的代码：

hankcs · August 14, 2020, 6:42pm

你应当在预处理期间限制句子的长度，也许可以利用这个函数：

github.com

hankcs/HanLP/blob/54a5f8521cefad2cd60d4a21f6abeb4b6c445b05/hanlp/utils/string_util.py#L23



def format_scores(results: Dict[str, float]) -> str:
    return ' - '.join(f'{k}: {v:.4f}' for (k, v) in results.items())


def ispunct(token):
    return all(unicodedata.category(char).startswith('P')
               for char in token)


def split_long_sentence_into(tokens: List[str], max_seq_length):
    punct_offset = [i for i, x in enumerate(tokens) if ispunct(x)]
    if not punct_offset:
        # treat every token as punct
        punct_offset = [i for i in range(len(tokens))]
    punct_offset += [len(tokens)]
    start = 0
    for i, offset in enumerate(punct_offset[:-1]):
        if punct_offset[i + 1] - start >= max_seq_length:
            yield tokens[start: offset + 1]
            start = offset + 1

Harth · August 15, 2020, 3:50am

好的，谢谢。

sophia · August 28, 2020, 11:12am

您好，我做分词的时候也遇到同样的问题，请问您是怎么解决这个问题的呀，谢谢

Harth · August 28, 2020, 1:11pm

你或许可以参考一下楼上大佬的回答。
按理应当是需要在预处理阶段处理限制好长度。
（我当时只是试用一下比较了几种实体识别的方法，想要获取专业领域内的实体或词典，发现结果都不好，不能直接使用实体识别的方法就没继续下去了）

hankcs · August 28, 2020, 3:22pm

开源的语料库基本都是大众新闻领域的，不适应专业领域。

关于各模块的输入长度问题，展开讲一讲。受限于内存，无论何种程序，能够同时处理的数据都是有限的。

在深度学习时代尤为突出，内存使用量最低正比于句子长度，在Transformer中，至少是句子长度的三次方。有些模型使用了更高阶的张量，那时便是长度的 n 次方了。另外，几乎所预训练的Transformer最大长度都是512，这也是无法改变的限制。

sophia · August 31, 2020, 7:14am

感谢两位大神！我再好好研究一下，谢谢