请教训练语料的方法

请问自己训练语料是否都是只能一点一点手动去分词,然后训练模型?还有其他方式吗,主要是如果有大量的行业语料的话,训练起来也是个庞大的任务。

参考《自然语言处理入门》第8章的启发,我觉得可以先用HanLP做一个分词,然后人工再去check和调整会节约不少时间~

好的,多谢我试试。

另外还有可以在代码里动态往词典里加新词,但是这种情况并不是真的在词典里加了词,这种情况的应用场景是什么?

你说的是往什么词典里面加新词?

CustomDictionary.insert(“社会摇”, “nz 100”);

这种代码里动态插入的词

CustomDictionary.insert(“社会摇”, “nz 100”);

这种代码里动态插入的词

这种情况就是往用户词典动态增添了新词,如此就不会影响其他任务的使用,如果直接修改用户词典,一来改多了会乱,二来不同任务有各自的特殊词汇,可能会相互影响~

1 Like

我用腾讯那16个G的语料训练内存溢出了。这么大的语料你一般怎么去训练的啊

用98年的语料先分词吗?

当然不用,那不是分好词的,楼主想自己搞语料~

没训练过这么大的,找高配服务器吧~

业务有很多行业相关语料,比如"银邮渠道",很多这种行业里的词,是不是自己训练会好一点,或者自定义词典里加词。。

我觉得是,自己有行业语料之后自己训练最好,实在不行,用自定义词典也是一种方法~