hanlp1.7.5版本,分词怎样可以将日期和时间完整的提取?

这两天开始学习hanlp,分词这块其他部分我没什么问题,包括自定义分词和排除的分词方法都使用成功。就是这个关于时间的处理有问题,我输入的是完整的时间,为什么提取出来的只有月份,其他的都是不一样的标签,想输出 “2020年5月18日”这样的结果,该如何处理?

我的理解是日期分词其实应该是属于命名实体识别的范畴, 而不是分词的范畴。 既然你已经尝试过自定义分词, 我觉得可以再分词器啊前wrap一层正则表达式, 将日期先提取出来并给予postag。具体可以参照hanlp 给出的url_tokenizer的例子https://github.com/hankcs/HanLP/blob/1.x/src/main/java/com/hankcs/hanlp/tokenizer/URLTokenizer.java

同时, 网上应该可以找到很多关于日期的正则。

1 Like

感谢,有办法做了

有帮助的话请给个赞~