1.x在设计上不支持补充字符集(比如𩽾𩾌
之类的生僻字),一个支持方案是采用Java8的codePoints()
方法。该方案的代价有两点:
- 不再支持Java6和7
- 性能上最坏情况损失一半速度
不知道广大1.x用户对此有何看法?欢迎投票:
- 支持改进,承受上述代价
- 反对改进,免受上述代价
0 投票者
详细的信息可以在如下issue找到:
1.x在设计上不支持补充字符集(比如𩽾𩾌
之类的生僻字),一个支持方案是采用Java8的codePoints()
方法。该方案的代价有两点:
不知道广大1.x用户对此有何看法?欢迎投票:
0 投票者
详细的信息可以在如下issue找到:
如果没人反对的话,这件事就安排上了?
好消息,我意识到从原理上HanLP的基础数据结构(双数组trie树等)是支持多字节字符的,只要多字节字符组成的词语位于词典中,一样可以正常匹配,只不过业务逻辑上需要将多字节字符的长度视为1。参考补丁,这个bug得到了圆满的解决,也没有损失速度或Java6支持。