请教训练语料的方法

jackieralf3 · September 9, 2020, 7:47am

请问自己训练语料是否都是只能一点一点手动去分词，然后训练模型？还有其他方式吗，主要是如果有大量的行业语料的话，训练起来也是个庞大的任务。

bqwu · September 10, 2020, 3:17am

参考《自然语言处理入门》第8章的启发，我觉得可以先用HanLP做一个分词，然后人工再去check和调整会节约不少时间～

jackieralf3 · September 10, 2020, 3:28am

好的，多谢我试试。

jackieralf3 · September 10, 2020, 3:29am

另外还有可以在代码里动态往词典里加新词，但是这种情况并不是真的在词典里加了词，这种情况的应用场景是什么？

bqwu · September 10, 2020, 5:02am

你说的是往什么词典里面加新词？

jackieralf3 · September 10, 2020, 6:31am

CustomDictionary.insert(“社会摇”, “nz 100”);

这种代码里动态插入的词

jackieralf3 · September 10, 2020, 6:54am

CustomDictionary.insert(“社会摇”, “nz 100”);

这种代码里动态插入的词

bqwu · September 11, 2020, 1:11am

这种情况就是往用户词典动态增添了新词，如此就不会影响其他任务的使用，如果直接修改用户词典，一来改多了会乱，二来不同任务有各自的特殊词汇，可能会相互影响～

jackieralf3 · September 11, 2020, 3:36am

我用腾讯那16个G的语料训练内存溢出了。这么大的语料你一般怎么去训练的啊

qxc · September 11, 2020, 2:54pm

用98年的语料先分词吗？

bqwu · September 12, 2020, 8:34am

当然不用，那不是分好词的，楼主想自己搞语料～

bqwu · September 12, 2020, 8:35am

没训练过这么大的，找高配服务器吧～

jackieralf3 · September 14, 2020, 2:27am

业务有很多行业相关语料，比如"银邮渠道"，很多这种行业里的词，是不是自己训练会好一点，或者自定义词典里加词。。

bqwu · September 14, 2020, 7:14am

我觉得是，自己有行业语料之后自己训练最好，实在不行，用自定义词典也是一种方法～

nyyyyyy · April 8, 2021, 2:18pm

你好,请教下这种方式训练出来以后是不是以后可以一直使用,还是每次使用前都得训练

bqwu · April 30, 2021, 7:13am

不好意思才看到。训练以后可以一直使用呀。