请教:文本中的地址识别,有什么好方法么

目前有场景是识别不规律文本中地址,现在是通过分词来识别地名的,但一是中国的地名比较多 大地名还好些 道路类的小地名就会有些问题,二是想识别出地址串,比如分完的结果组合成“某某省某某市某某区某某路某某小区某某栋某某单元##”,现在就只能多丰富一下地名词典,先保证拆分准确,有没有好一些的解决方案能比较理想的直接拆分出来期望的地址信息,想请教一下。

1 Like

大地名因为在语料库中反复出现所以能够识别,小地名则不然。解决方法之一是收集一部分小地名插入到语料库的大地名后面,然后重新训练模型。至于楼层和单元建议使用正则表达式解决。未来HanLP会有专门的模型针对这个问题,很可能在2.x的某个版本发布。
另外,提供一个地名库作为参考:63万上海地名

2 Likes

好的 我按照这个思路试一下 现在的场景频繁遇到这种问题 用字典的方式应付不了了已经:sweat_smile: 书已经买了:smiley: 跟着书好好学一下 有不懂的再请教您

期待大神的模型上线,我们也有同类似的需求

大神您好,你说的功能现在版本实现了吗 还有提供的地名文件好像不在了