2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

屏幕快照 2020-07-08 下午9.21.59

下达市 ——> 下达 .

1 Like

这是个有意思的发现,语料库中只有“马来西亚”的“马来”,造成了这种bias。

1 Like

刚刚发布了一个在一亿字大语料上训练的albert_base分词模型,初步测试基本达到生产要求,你可以试试:

另外,汇报错误的时候建议用链接的形式,这样下次就不用手敲了,比如链接

3 Likes

句法依存的模型什么时候更新啊?:smile:

parsing部分其实做的改进非常多,包括tree/graph constraint、sdp等等。预计放到 2.0.1里,跟PyTorch后端一起发布。

1 Like