各种切分词引擎有啥区别,怎么选择?

刚入门自然语言处理,有没有大佬给通俗的介绍一下各种分词引擎有啥优缺点,怎么选择呀,比较多,我们项目中引用的就有清华的,结巴的,HanLP的,只是引入了,实现了切分词功能,也不知道其中区别,感谢大家不吝赐教。

1 Like

HanLP官网在功能中心-多语言分词版块
针对各种分词算法有详细介绍
你可以看一下

2 Likes

基于词典的,正向的,反向的,双向的 + 最大匹配,最短匹配,重叠匹配(AC自动机)
基于神经网络的,blstm+crf, 其实任何序列标注模型都可以

1 Like