从文本中自动提取QA的策略

当前依赖训练师从文本中提取QA,工作量巨大,我们希望找到一种方法,可以自动根据文本内容提出问题,并总结答案,也就是从给定的文本中自动生成QA。

目前思路:
1、语料预处理
2、提取关键词/主题分布
3、根据关键词/主题按照不同的问题类型生成问题(概念类:什么是…;原因类:为什么…)
4、生成问题后反过来从文本中寻找答案

目前问题:
提取的关键词不准确,比如解释电费中的耗损费的产生原理时,会出现大量变压器、电压、电阻、电流,只在最后结论中提到他们造成了这个耗损费,这就导致提取的关键词成了变压器、电压等这些了。我想知道有什么方法知道这一段就是在讲耗损费呢?

2 Likes

这个得标注吧

你是说训练师协助标注是吗?

这方面目前在QA领域的论文方面研究的比较多,建议从论文中看看,在工程方面目前落地的没怎么听过。

对,如果你需要按照业务的理解来生成标签,就得上有监督的学习方案了吧。

:heart_eyes:请问有相关论文推荐吗?

update at 2020-7-14
找到了一篇有点老的论文,不过内容还可以,地址:https://www.aclweb.org/anthology/K17-1028.pdf

我们目前也是使用的这种解决方案 :slightly_smiling_face:

比较抱歉,个人并不是研究这个方向的,之前做过QA问答,因此才发现近期这个分支学术研究比较多,至于甄别好坏,就没有专业能力了。

可以通过规则去抽取问题,然后围绕问题再去找答案。
想直接一步抽取QA对比较麻烦,如果就想基于文档做QA,拿MRC思路做就行了。

MRC思路?可以具体指点下吗?

从无规则语料中提取还是很困难的。这就像让一个已经具有智能的机器去干一件人工智能的事情。那么既然已经有这样的机器了何必再去研究人工智能,再就是这个智能机器又是怎么来的,所以这类语料还是从现有的问答语料中提取,至少相当于已经标记了问和答

1 Like

这个说得不是知识抽取吗?就是知识图谱那个,知识图谱做出来就可以做个问答了

嗯。前期估计确实只能通过监督学习实现,后期进阶模型时再拿前期的积累作为训练集

有考虑过使用知识图谱的方式做,不过因为是无规则语料,三元组提取结果不理想

在无规则语料下,三元组抽取就是惨目忍睹。就算能够抽出一个比较理想的三元组数据,但是基于三元组数据还必须有一套合理的规则(语料去训练)去组装问句,问句组装合理后,答案的获取也需要一套合理的规则或语料。

推荐你看下这个 https://spaces.ac.cn/archives/7630

2 Likes
  1. 触发词,模板
  2. 文本分类问题