分词上关于一些英文数字混合的字符串应该如何处理

gitee · February 23, 2022, 11:33am

你好，我是 Gitee.com 的同学，开源软件中经常有各种各样的软件名称，比如 log4j ，比如 j2cache ，比如 K8S 等等。

这种词汇用 HanLP 进行分词会被拆分成三部分。虽然通过加词库的方式可以正确的分词，但因为新软件层出不穷，经常会有新的出来。所以我想着能否在处理这种英文数字混编的字符串的时候，能出如下的效果，例如： log4j = [log4j,log,4,j]

不知道这个问题是否有现成的解决办法呢？非常感谢

hankcs · February 23, 2022, 2:42pm

建议升级2.x，直接就能分对：https://hanlp.hankcs.com/?sentence=Apache+Log4j2+被曝出一个高危漏洞，该漏洞被命名为Log4Shell，编号CVE-2021-44228。

1.x可以用LexicalAnalyzerPipeline添加正则表达式识别：

github.com

hankcs/HanLP/blob/69329f954cae23fcca0b62761f5f969f3e457009/src/test/java/com/hankcs/demo/DemoPipeline.java#L34

    
      
          * 演示流水线模式，几个概念：
          * - pipe：流水线的一节管道，执行统计分词或规则逻辑
          * - flow：管道的数据流，在同名方法中执行本节管道的业务
          * - pipeline：流水线，由至少一节管道（统计分词管道）构成，可自由调整管道的拼装方式
          *
          * @author hankcs
          */
          public class DemoPipeline
          {
             private static final Pattern WEB_URL = Pattern.compile("((?:(http|https|Http|Https|rtsp|Rtsp):\\/\\/(?:(?:[a-zA-Z0-9\\$\\-\\_\\.\\+\\!\\*\\'\\(\\)\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,64}(?:\\:(?:[a-zA-Z0-9\\$\\-\\_\\.\\+\\!\\*\\'\\(\\)\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,25})?\\@)?)?(?:(((([a-zA-Z0-9][a-zA-Z0-9\\-]*)*[a-zA-Z0-9]\\.)+((aero|arpa|asia|a[cdefgilmnoqrstuwxz])|(biz|b[abdefghijmnorstvwyz])|(cat|com|coop|c[acdfghiklmnoruvxyz])|d[ejkmoz]|(edu|e[cegrstu])|f[ijkmor]|(gov|g[abdefghilmnpqrstuwy])|h[kmnrtu]|(info|int|i[delmnoqrst])|(jobs|j[emop])|k[eghimnprwyz]|l[abcikrstuvy]|(mil|mobi|museum|m[acdeghklmnopqrstuvwxyz])|(name|net|n[acefgilopruz])|(org|om)|(pro|p[aefghklmnrstwy])|qa|r[eosuw]|s[abcdeghijklmnortuvyz]|(tel|travel|t[cdfghjklmnoprtvwz])|u[agksyz]|v[aceginu]|w[fs]|(δοκιμή|испытание|рф|срб|טעסט|آزمایشی|إختبار|الاردن|الجزائر|السعودية|المغرب|امارات|بھارت|تونس|سورية|فلسطين|قطر|مصر|परीक्षा|भारत|ভারত|ਭਾਰਤ|ભારત|இந்தியா|இலங்கை|சிங்கப்பூர்|பரிட்சை|భారత్|ලංකා|ไทย|テスト|中国|中國|台湾|台灣|新加坡|测试|測試|香港|테스트|한국|xn\\-\\-0zwm56d|xn\\-\\-11b5bs3a9aj6g|xn\\-\\-3e0b707e|xn\\-\\-45brj9c|xn\\-\\-80akhbyknj4f|xn\\-\\-90a3ac|xn\\-\\-9t4b11yi5a|xn\\-\\-clchc0ea0b2g2a9gcd|xn\\-\\-deba0ad|xn\\-\\-fiqs8s|xn\\-\\-fiqz9s|xn\\-\\-fpcrj9c3d|xn\\-\\-fzc2c9e2c|xn\\-\\-g6w251d|xn\\-\\-gecrj9c|xn\\-\\-h2brj9c|xn\\-\\-hgbk6aj7f53bba|xn\\-\\-hlcj6aya9esc7a|xn\\-\\-j6w193g|xn\\-\\-jxalpdlp|xn\\-\\-kgbechtv|xn\\-\\-kprw13d|xn\\-\\-kpry57d|xn\\-\\-lgbbat1ad8j|xn\\-\\-mgbaam7a8h|xn\\-\\-mgbayh7gpa|xn\\-\\-mgbbh1a71e|xn\\-\\-mgbc0a9azcg|xn\\-\\-mgberp4a5d4ar|xn\\-\\-o3cw4h|xn\\-\\-ogbpf8fl|xn\\-\\-p1ai|xn\\-\\-pgbs0dh|xn\\-\\-s9brj9c|xn\\-\\-wgbh1c|xn\\-\\-wgbl6a|xn\\-\\-xkc2al3hye2a|xn\\-\\-xkc2dl3a5ee0h|xn\\-\\-yfro4i67o|xn\\-\\-ygbi2ammx|xn\\-\\-zckzah|xxx)|y[et]|z[amw]))|((25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\\.(25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[0-9]))))(?:\\:\\d{1,5})?)(\\/(?:(?:[a-zA-Z0-9\\;\\/\\?\\:\\@\\&\\=\\#\\~\\-\\.\\+\\!\\*\\'\\(\\)\\,\\_])|(?:\\%[a-fA-F0-9]{2}))*)?");
             private static final Pattern EMAIL = Pattern.compile("(\\w+(?:[-+.]\\w+)*)@(\\w+(?:[-.]\\w+)*\\.\\w+(?:[-.]\\w+)*)");
          
          
   public static void main(String[] args) throws IOException
             {
                 LexicalAnalyzerPipeline analyzer = new LexicalAnalyzerPipeline(new PerceptronLexicalAnalyzer());
                 // 管道顺序=优先级，自行调整管道顺序以控制优先级
                 analyzer.addFirst(new RegexRecognizePipe(WEB_URL, "【网址】"));
                 analyzer.addFirst(new RegexRecognizePipe(EMAIL, "【邮件】"));
                 analyzer.addLast(new Pipe<List<IWord>, List<IWord>>() // 自己写个管道也并非难事
                 {
                     @Override

gitee · February 25, 2022, 4:06am

谢谢你的回复。

因为我是想做到 ES 插件里的。所以我希望一个词能被分成多个
例如 log4j → log4j, log 两个词都可检索到。
主要是各种开源软件的名称取名太混乱了，希望用户能跟方便的检索到
这种请问建议应该怎么处理比较合适呢？

hankcs · February 27, 2022, 12:33am

每个nx词性的单词按字符类型拆一下，参考IndexTokenizer记录好offset。一点规则而已，自己封装。