下达市 ——> 下达 . 市
这是个有意思的发现,语料库中只有“马来西亚”的“马来”,造成了这种bias。
刚刚发布了一个在一亿字大语料上训练的albert_base分词模型,初步测试基本达到生产要求,你可以试试:
另外,汇报错误的时候建议用链接的形式,这样下次就不用手敲了,比如链接。
句法依存的模型什么时候更新啊?
parsing部分其实做的改进非常多,包括tree/graph constraint、sdp等等。预计放到 2.0.1里,跟PyTorch后端一起发布。