从文本中自动提取QA的策略

当前依赖训练师从文本中提取QA,工作量巨大,我们希望找到一种方法,可以自动根据文本内容提出问题,并总结答案,也就是从给定的文本中自动生成QA。

目前思路:
1、语料预处理
2、提取关键词/主题分布
3、根据关键词/主题按照不同的问题类型生成问题(概念类:什么是…;原因类:为什么…)
4、生成问题后反过来从文本中寻找答案

目前问题:
提取的关键词不准确,比如解释电费中的耗损费的产生原理时,会出现大量变压器、电压、电阻、电流,只在最后结论中提到他们造成了这个耗损费,这就导致提取的关键词成了变压器、电压等这些了。我想知道有什么方法知道这一段就是在讲耗损费呢?

这个得标注吧