HanLP发票货物劳务名称识别研究实验的介绍及源码

这是2020年秋天用HanLP2.0完成的发票货物劳务名称识别落地应用研究,2021年夏天升级到HanLP2.1,并在小何博士的帮助下解决了TensorFlow后端在GPU上并行的问题。前几天升级了CUDA(11.3)及cuDNN(8.2.1),可以同时跑tensorflow-gpu-2.6.0及pytorch-1.11.0 cudatoolkit-11.3,并测试了HanLP2.1新增的PyTorch后端。作为感谢与反馈,把介绍文章与源码也在这里发一下,以便研发方更好的了解行业落地应用需求与改进产品。
感觉对于发票货物劳务名称识别这样的结构化名词性短语分析NLP应用场景来说,PyTorch用户自定义字典的使用更为简单,建议TensorFlow后端参考改进用户自定义词典的实现,使用上也象PyTorch后端一样简单。
语义依存分析返回的语义图,在我的实验中会碰到返回有环图的情况,建议改进一下产品设计尽量避免。我在遍历语义图提取货物劳务名称时,用igraph重建图,并在广度优先遍历时增加结点是否已遍历的检查,跳过环路来避免程序崩溃。
文章具体可以到美篇上阅读。
当时完成了TensorFlow GPU后端后,转去解决另一个瓶颈问题,交易网络分析。最近全部完成了,回过头来测试一下HanLP2.1的GPU双后端,整理并反馈一下。

1 Like