mul模型的训练数据

您好,我想问一下multilingual的tokenizer模型是在UD2.7+Ontonote 5的Training上训练的吗?没有使用dev。是否UD的所有语言都加入训练数据中了呢?

Hi,mul的tok decoder是在ud2.7+OntoNotes5+ptb3+ctb9的训练集上训练的。合并了所有语种,但没有合并dev到train中。见如下代码:

merge_files(
    [
        'ud-multilingual-v2.7/train.tsv',
        'data/tok/arabic/train.tsv',
        'data/tok/chinese/train.tsv',
        'data/tok/english/train.tsv',
        'data/tok/ptb/train.tsv',
        'data/tok/ctb/train.tsv',
    ], 'data/mtl/mul/tok/train.tsv'
)
merge_files(
    [
        'ud-multilingual-v2.7/dev.tsv',
        'data/tok/arabic/dev.tsv',
        'data/tok/chinese/dev.tsv',
        'data/tok/english/dev.tsv',
        'data/tok/ptb/dev.tsv',
        'data/tok/ctb/dev.tsv',
    ], 'data/mtl/mul/tok/dev.tsv'
)

merge_files(
    [
        'ud-multilingual-v2.7/test.tsv',
        'data/tok/arabic/test.tsv',
        'data/tok/chinese/test.tsv',
        'data/tok/english/test.tsv',
        'data/tok/ptb/test.tsv',
        'data/tok/ctb/test.tsv',
    ], 'data/mtl/mul/tok/test.tsv'
)

感谢,请问hanlp支持分句功能吗?我希望在UD上对整个paragraph进行分句+分词的功能,同时会输出UD格式的分词结果,比如在UD 2.7里,“John’s”会被分词为:
1-2 John’s _ _ _ _ _ _ _ _
1 John _ _ _ _ _ _ _ _
2 's _ _ _ _ _ _ _ _
不知道分词结果里面是不是可以判断这个1-2的ID呢?

分句可以用多语种eos:

1-2这种mwe目前并不支持,ud英文的mwe似乎只有那么几种,可以通过cop deprel变相实现:https://play.hanlp.ml/run/ud-mwe

对于其他语言,未来可以能会上一个专门的decoder。