【投票】1.x是否增加对补充字符集的支持?

1.x在设计上不支持补充字符集(比如𩽾𩾌之类的生僻字),一个支持方案是采用Java8的codePoints()方法。该方案的代价有两点:

  1. 不再支持Java6和7
  2. 性能上最坏情况损失一半速度

不知道广大1.x用户对此有何看法?欢迎投票:

  • 支持改进,承受上述代价
  • 反对改进,免受上述代价

0 投票者

详细的信息可以在如下issue找到:

如果没人反对的话,这件事就安排上了?

好消息,我意识到从原理上HanLP的基础数据结构(双数组trie树等)是支持多字节字符的,只要多字节字符组成的词语位于词典中,一样可以正常匹配,只不过业务逻辑上需要将多字节字符的长度视为1。参考补丁,这个bug得到了圆满的解决,也没有损失速度或Java6支持。