问题描述
我在SIGHAN2005-PKU语料库上测试分词器的效果,但出现分词效果不一致的情况。(问题1)
同时把pku_training_words.txt
作为自定义词典加入后,效果反而变差了。(问题2)
请问怎样加入自定义词典才能提升分词效果?
问题1
HanLP主页提供了两种方式配置HanLP,但两种方式下分别使用标准分词器对同一句子分词效果不一致?
配置maven的方式一,倾向于把词拆分,如 改革开放
分词为 改革
和 开放
。
而下载jar包的方式二,倾向于把词合并,如 改革开放
分词为 改革开放
。
请问这是为什么?
以下是使用 StandardTokenizer.segment()
对三个句子的分词结果
* pom portable-1.8.0
* [共同/d, 创造/v, 美好/a, 的/uj, 新/a, 世纪/n, ——/w, 二○○一/m, 年/q, 新年贺词/nz]
* [改革/vn, 开放/v, 较/d, 快/a, 的/uj, 基础/n, 上/f, ,/w, 开展/v, 新/a, 的/uj, 努力/ad, 奋斗/v]
* [女士/n, 们/k, ,/w, 先生/n, 们/k, ,/w, 同志/n, 们/k, ,/w, 朋友/n, 们/k]
*
* jar release-1.8.0
* [共同/n, 创造/n, 美好/n, 的/n, 新世纪/n, ——/n, 二○○一/m, 年/n, 新年贺词/nz]
* [改革开放/v, 较快/d, 的/n, 基础上/nz, ,/n, 开展/n, 新的/a, 努力奋斗/v]
* [女士们/nz, ,/n, 先生/n, 们/n, ,/n, 同志们/nz, ,/n, 朋友们/nz]
问题2
在release-1.8.0版本下,使用 StandardTokenizer
分词器进行分词,我把 pku_training_words.txt
作为用户词典加入后,分词各指标均下降了约2%。
我检查了一些分词错误的情况,如下。词典里是没有 不具
和 全人
等词的,为什么加入用户词典后会这么切分?加入自定义词典的正确方式应该是怎样的?
case | standardTokenizer分词 | 加入用户词典后 |
---|---|---|
二○○一年 | 二○○一 / 年 | 二 / ○ / ○ / 一 / 年 |
不 / 具备 / ,/ 时刻 / 面临 | 不具备 / ,/ 时刻 / 面临 | 不具 / 备 / ,/ 时 / 刻面 / 临 |
全人类 | 全人类 | 全人 / 类 |
本 / 民族 | 本 / 民族 | 本民 / 族 |
自定义词典:
# pku_training_words.txt
打头阵
夏普吐勒乡
黎明
宣
19980118-04-005-004
19980114-05-005-004
预应力
...