从文本中自动提取QA的策略

AsyDong · June 9, 2020, 2:45am

当前依赖训练师从文本中提取QA，工作量巨大，我们希望找到一种方法，可以自动根据文本内容提出问题，并总结答案，也就是从给定的文本中自动生成QA。

目前思路：
1、语料预处理
2、提取关键词/主题分布
3、根据关键词/主题按照不同的问题类型生成问题（概念类：什么是…；原因类：为什么…）
4、生成问题后反过来从文本中寻找答案

目前问题：
提取的关键词不准确，比如解释电费中的耗损费的产生原理时，会出现大量变压器、电压、电阻、电流，只在最后结论中提到他们造成了这个耗损费，这就导致提取的关键词成了变压器、电压等这些了。我想知道有什么方法知道这一段就是在讲耗损费呢？

EmilyLong · July 7, 2020, 7:18am

这个得标注吧

AsyDong · July 13, 2020, 12:59am

你是说训练师协助标注是吗？

bmw · July 13, 2020, 1:13am

这方面目前在QA领域的论文方面研究的比较多，建议从论文中看看，在工程方面目前落地的没怎么听过。

EmilyLong · July 13, 2020, 7:36am

对，如果你需要按照业务的理解来生成标签，就得上有监督的学习方案了吧。

AsyDong · July 13, 2020, 8:15am

请问有相关论文推荐吗？

update at 2020-7-14
找到了一篇有点老的论文，不过内容还可以，地址：https://www.aclweb.org/anthology/K17-1028.pdf

AsyDong · July 13, 2020, 8:16am

我们目前也是使用的这种解决方案

bmw · July 14, 2020, 1:34am

比较抱歉，个人并不是研究这个方向的，之前做过QA问答，因此才发现近期这个分支学术研究比较多，至于甄别好坏，就没有专业能力了。

yangst2 · July 17, 2020, 9:16am

可以通过规则去抽取问题，然后围绕问题再去找答案。
想直接一步抽取QA对比较麻烦，如果就想基于文档做QA，拿MRC思路做就行了。

AsyDong · July 20, 2020, 1:02am

MRC思路？可以具体指点下吗？

bblabs · July 26, 2020, 8:38am

从无规则语料中提取还是很困难的。这就像让一个已经具有智能的机器去干一件人工智能的事情。那么既然已经有这样的机器了何必再去研究人工智能，再就是这个智能机器又是怎么来的，所以这类语料还是从现有的问答语料中提取，至少相当于已经标记了问和答

556isback · July 27, 2020, 1:07am

这个说得不是知识抽取吗？就是知识图谱那个，知识图谱做出来就可以做个问答了

AsyDong · July 27, 2020, 1:23am

嗯。前期估计确实只能通过监督学习实现，后期进阶模型时再拿前期的积累作为训练集

AsyDong · July 27, 2020, 1:25am

有考虑过使用知识图谱的方式做，不过因为是无规则语料，三元组提取结果不理想

Oy_d · July 27, 2020, 2:29am

在无规则语料下，三元组抽取就是惨目忍睹。就算能够抽出一个比较理想的三元组数据，但是基于三元组数据还必须有一套合理的规则（语料去训练）去组装问句，问句组装合理后，答案的获取也需要一套合理的规则或语料。

yangst2 · July 28, 2020, 4:21pm

BitVoyage · August 17, 2020, 11:42am