【投票】1.x是否增加对补充字符集的支持？

hankcs · October 2, 2020, 5:35pm

1.x在设计上不支持补充字符集（比如𩽾𩾌之类的生僻字），一个支持方案是采用Java8的codePoints()方法。该方案的代价有两点：

不知道广大1.x用户对此有何看法？欢迎投票：

0 投票者

详细的信息可以在如下issue找到：

hankcs · October 11, 2020, 3:37am

如果没人反对的话，这件事就安排上了？

hankcs · January 31, 2021, 4:02am

好消息，我意识到从原理上HanLP的基础数据结构（双数组trie树等）是支持多字节字符的，只要多字节字符组成的词语位于词典中，一样可以正常匹配，只不过业务逻辑上需要将多字节字符的长度视为1。参考补丁，这个bug得到了圆满的解决，也没有损失速度或Java6支持。