请教无监督实体识别

何老师,你好!
我现在有一个40w医疗词表,14个类别,但是没有语料库,需要在医疗的指南上抽取词表中的词,请问有什么好的方法吗?
我试了hanlp中加载自定义词典分词的方法(因为没有训练语料),但是会存在
急性肾损伤 疾病
( w
AKI nx
) w
是 评价结果
指 解剖结构
7 m
d nx
这种问题
期待您的回复

1 Like

请教不敢。

  1. 自定义词典是规则,难登大雅之堂。
  2. 既然你有词典,可以试试远程监督。
1 Like

试一下用AutoPhrase是否可以自动挖掘高质量短语,这种疾病词感觉大多数都是短语名词