大家好,我有个问题需要请教大家;
1、我手头的语料包含如下的信息
编号:SDCC-YF-SH-01
编号:SDAC-YF-SH-01
目前分词出来的效果就是:
SDCC YF SH 01
我希望得到的是一个完整的编号,有没有好的办法?
2、还有电话号码:
比如:0435-1234567
3、String ss = “2017年云峰发电厂”;
Segment segment = HanLP.newSegment().enablePartOfSpeechTagging(false)
.enablePlaceRecognize(true)
.enableOrganizationRecognize(true);
List termList = segment.seg(ss);
System.out.println(termList);
分词结果是L:
[2017/m, 年云峰发电厂/nt]
而且我已经把“云峰发电厂”加载到自定义词库了。
我要的效果是:2017年 云峰发电厂