本文共 1045 字,大约阅读时间需要 3 分钟。
本文分享的是今天刚刚刷出的一篇paper,是研究阅读理解的同学们的福音,因为要放出新的而且是中文的数据集。本文的题目是Consensus Attention-based Neural Networks for Chinese Reading Comprehension,作者均来自哈工大讯飞联合实验室。
对于机器阅读理解的基本内容就不作介绍了,感兴趣的同学可以参考之前写的一篇摘要教机器学习阅读。本文最大的亮点在于构建了中文机器阅读语料,语料分为两个部分,一个是训练集和自测试集,一个是领域外的测试集,包括人工的提问和自动获取的提问两种。(语料地址,可能过段时间会publish出来)
第一个部分是从人民日报获取的新闻语料,构建方法比较简单,先用POS工具对每篇新闻的词性进行标注,选择出现过两次以上的名词作为候选答案词。从候选词总随机选择一个词作为答案词,用包含答案词的句子作为问题query,剩下的部分作为document,从而构造出一个对。这种做法的好处是基于一个不太多的语料都可以构建出大量的对用来训练,这样也迎合了deep learning的需求。,query,answer>,query,answer>
第二个部分也是非常有意思的部分,就是提出了用一个训练数据领域外的数据集作为测试集,构造的方法分为两种,一种是自动的方法和第一部分相同,第二种是基于人工的提问,而且是对于机器来说难度较大的问题。之所以采用领域外的数据进行测试,是为了防止新闻数据中很多问题可以通过外部知识库来进行回答,导致问题变得简单,如果用一个儿童读物的数据作为测试集,就会将这个问题变得更加纯粹和有挑战性。
既然提出了新数据,baseline模型也省不了,本文提出的模型叫Consensus Attention Sum Reader,没有太多的新东西,效果也没有之前文章中Gate Attention Reader和Iterative Alternating Attention那么好,所以就不再介绍了。
训练数据的自动标注和生成是deep learning应用的关键,很多领域发展缓慢或者在工程中应用不好都是因为data的量不够多,且没有太多好的方法来生成或者标注。机器阅读这个领域,相对来说,dataset的自动构建还是很容易做的,操作也比较简单,抠掉一个核心词就可以。而bot,自动文摘,在实际的工程应用中都难以用流行的data driven方案来解决,因为代价太大了。
来源:paperweekly
转载地址:http://yzdlo.baihongyu.com/