Hanlp2.0 能否在原有预训练模型上继续在线学习

hankcs老师,你好,我最近几个月才初入nlp,刚拜读完您写的书籍。目前正在研究hanlp2.0,已经通过自己写规则完成了分词与命名体识别的合并,并通过依存句法分析提取出了观点,但是发现有些句子并没有达到想要的效果,需要再训练分词等预训练模型。想问下hankcs老师,目前2.0有方法进行基于预训练模型的在线学习的方法么?还是说自己维护原有词典重新进行训练呢?我看您之前说将做一个永不停止学习的线上模型,所以想问问目前2.0版本是否有提供相应的接口还是有别的方法,研究了好久目前也没有找到合适的方法,还请老师指点,谢谢!

1 Like
  1. 神经网络这么复杂的模型不太可能通过一个实例在线学习更新(需要试验验证)。
  2. 模型学习的来源是预训练的语言模型,这部分语料不间断地产生,所以是永不停息的。当然这些是长远计划,需要很大的算力支持。
  3. 2.0目前发布的分词模型只有pku98,没有large,毕竟是测试中,还没有达到生产效果。你可以用1.x的large分词,配合2.0的其他功能使用,应该是目前最靠谱的方案。
3 Likes

好的,我试一试,谢谢hankcs老师