如何自定义优化自动摘要的结果?

本人NLP小白一枚,近期接触了HanLP,看到封装完善的API,非常开心有小白能直接调用的大把功能。但结合业务一个需求研究了一番没找到实现方式:
【上颌窦、筛窦、蝶窦及左侧额窦粘膜增厚】识别为—>>>【鼻窦少许炎症】(鼻窦包含颌窦、筛窦、蝶窦及额窦,粘膜增厚结合上文可理解为少许炎症)。

我应该从哪些方向下手能取到想要的结果呢?

自己试了CoreSynonymDictionary.createSynonymList添加同义词、CustomDictionary.insert添加自定义词典,都没有效果,是否要通过 Word2VecTrainer.train训练语料来实现呢?

想得到一些关于调研方向的思路 :face_with_monocle:希望大佬指点和赐教^^

或者不应该使用自动摘要,用其他的方式吗?

找了一圈还是没发现有类似相关的API,请教一下有什么好的思路 :joy:

这个问题是否有些超纲了,是否通过训练语料的api也很难实现呢? :sneezing_face:

早上好,求关注,求回复

理论上可以用生成式自动摘要,但现实中没有这么专业的医疗语料与摘要模型。如果你能人工标注或者挖掘大量原文+摘要这样的平行句对,训练一个医疗领域的摘要模型很简单。这种语料库需要专业的医生才能标注,成本是相当昂贵的。

1 Like

谢谢何博士的指点,这种成本确实会比较高昂,不过我目前就是做可行性分析,成本可以交给老板去揪头发 :rofl:
想再问下【原文+摘要这样的平行句对】是什么样子格式的呢?训练的话也是通过我们HanLP提供的 Word2VecTrainer.train() 就可以的吗 :sweat_smile:

第一,需要构建 解剖关系图。就像你说的,鼻窦 包括 筛窦 等等。
第二,需要构建症状和体征的 关系图,这个是最难的。比如 粘膜增厚 → 炎症,这样的 标注内容无穷无尽。你自己先收集 症状词 和 体征词 (这两个不一样),然后还需要 症状 和 体征的 关系。

工作量很大,不适合 HanLP 来做。只能自己封装加工。

2 Likes

感谢指点,NLP真的是路漫漫兮,有无数的基础工作要做