自定义一些行业,根据输入的文本信息划分行业

最新想做一个需求:自定义一些行业,根据输入的文本信息划分行业 hanlp 能实现类似的需求么 大佬们有什么思路推荐吗

https://blog.csdn.net/weixin_41510260/article/details/104300467

这个就相当于文本分类吧,我认为你可以自己维护一套hanlp上的标准格式的属于你的行业划分的文本分类语料库,然后训练出模型,根据自己训练的模型去试试新的文本信息,并通过不断的改进模型来提高准确率

可以参考com.hankcs.demo.DemoTextClassification 这个类来训练自己的模型并使用模型进行文本分类。
这个类是HanLP1.x的Java版本中的。

请问下, 文本分类是否会出现这种情况:
分类A:
–内容a
–。。。

训练以后的模型 识别 内容a 不能保证在分类a里面

无法预测标注集之外的类别,标注集由用户决定,即它的输出结果是属于标注集的,不会出现再标注集之外。
举个例子,如果标注集是:金融、汽车、财经、体育四类。那么文本分类系统的结果是这四个其中之一,并不会出现科技这个新类。