【投票】HanLP2.1的细分标准是否不够细?

HanLP2.1提供粗分和细分两种分词标准,比如“自然语义公司”在粗分标准中是一个词,而在细分标准中则是“自然|语义|公司”三个词。近期在观察2.1的分词结果时,我注意到部分细分结果可能有点不够细,比如“猪肉脯”是否应该分为“猪肉|脯”?“社会主义”是否应该分为“社会|主义”?不知道大家对此的看法是?

HanLP2.1的细分标准
  • 太粗了,不够细
  • 刚好合适
  • 太细了,不够粗

0 投票人

“社会主义”应该不用分

  jieba-paddle  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
         jiagu  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
        pkuseg  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
        thulac  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
      foolnltk  弹簧床/、/自然语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
      ltp-base  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
     ltp-small  弹簧床/、/自然语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
           lac  弹簧床/、/自然语义公司/、/北京清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
     paddlenlp  弹簧床/、/自然语义/公司/、/北京清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
       pynlpir  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
    macropodus  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
      hanlp2.x  弹簧床/、/自然/语义/公司/、/北京/清华/大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
      hanlp1.x  弹簧床/、/自然/语义/公司/、/北京/清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
microtokenizer  弹/簧/床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
       snownlp  弹/簧床/、/自然/语义/公司/、/北京/清华大学/、/中国/移动/通信/集团/。/共产主义/和/社会主义/。
         xmnlp  弹簧床/、/自然/语义/公司/、/北京清华大学/、/中国移动通信集团/。/共产主义/和/社会主义/。
1 Like

可以参考《现代汉语词典》等一些常用词典(包括 汉英词典)作为细粒度切分依据,
像“社会主义”、“小资产阶级”这种词典里 单列了一个词条,有明确定义的词 在细分条件下也应该保持为一个完整的词。

像“猪肉脯”这种细分结果为“猪肉|脯”,粗分结果为“猪肉脯”我觉得比较合适 —— XX|脯 这种形式 可以 千变万化, 比如 “桃肉脯”、“杏肉脯”、“虎肉脯”……

3 Likes

补充几个例子: 老|同学、老|战友、老|上级
目前细分下均为一个词,按照前述原则,应该拆开。

可以的,准备以PKU为基础标准校对一下large语料库。