博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Consensus Attention-based Neural Networks for Chinese Reading
阅读量:6705 次
发布时间:2019-06-25

本文共 1045 字,大约阅读时间需要 3 分钟。

640?wx_fmt=jpeg&tp=webp&wxfrom=5

本文分享的是今天刚刚刷出的一篇paper,是研究阅读理解的同学们的福音,因为要放出新的而且是中文的数据集。本文的题目是Consensus Attention-based Neural Networks for Chinese Reading Comprehension,作者均来自哈工大讯飞联合实验室。

对于机器阅读理解的基本内容就不作介绍了,感兴趣的同学可以参考之前写的一篇摘要教机器学习阅读。本文最大的亮点在于构建了中文机器阅读语料,语料分为两个部分,一个是训练集和自测试集,一个是领域外的测试集,包括人工的提问和自动获取的提问两种。(语料地址,可能过段时间会publish出来)

第一个部分是从人民日报获取的新闻语料,构建方法比较简单,先用POS工具对每篇新闻的词性进行标注,选择出现过两次以上的名词作为候选答案词。从候选词总随机选择一个词作为答案词,用包含答案词的句子作为问题query,剩下的部分作为document,从而构造出一个对。这种做法的好处是基于一个不太多的语料都可以构建出大量的对用来训练,这样也迎合了deep learning的需求。,query,answer>,query,answer>

第二个部分也是非常有意思的部分,就是提出了用一个训练数据领域外的数据集作为测试集,构造的方法分为两种,一种是自动的方法和第一部分相同,第二种是基于人工的提问,而且是对于机器来说难度较大的问题。之所以采用领域外的数据进行测试,是为了防止新闻数据中很多问题可以通过外部知识库来进行回答,导致问题变得简单,如果用一个儿童读物的数据作为测试集,就会将这个问题变得更加纯粹和有挑战性。

既然提出了新数据,baseline模型也省不了,本文提出的模型叫Consensus Attention Sum Reader,没有太多的新东西,效果也没有之前文章中Gate Attention Reader和Iterative Alternating Attention那么好,所以就不再介绍了。

训练数据的自动标注和生成是deep learning应用的关键,很多领域发展缓慢或者在工程中应用不好都是因为data的量不够多,且没有太多好的方法来生成或者标注。机器阅读这个领域,相对来说,dataset的自动构建还是很容易做的,操作也比较简单,抠掉一个核心词就可以。而bot,自动文摘,在实际的工程应用中都难以用流行的data driven方案来解决,因为代价太大了。

来源:paperweekly

转载地址:http://yzdlo.baihongyu.com/

你可能感兴趣的文章
IIS7.5上的REST服务的Put操作发生HTTP Error 405.0 - Method Not Allowed 解决方法
查看>>
咱们来聊聊JS中的异步,以及如何异步,菜鸟版
查看>>
ListFragment的使用
查看>>
bufferedimage 转换成 inputstream并保存文件
查看>>
IntelliJ Idea13无法创建maven模板
查看>>
数组和集合的相互转换
查看>>
sql STUFF用法
查看>>
BZOJ3346 : Ural1811 Dual Sim Phone
查看>>
i++与++i 辨析
查看>>
WebService 之 已超过传入消息(65536)的最大消息大小配额。若要增加配额,请使用相应绑定元素上的 MaxReceivedMessageSize 属性。...
查看>>
ImportError: The _imagingft C module is not installed
查看>>
李洪强iOS经典面试题144-数据存储
查看>>
svn 和 git的区别
查看>>
五一游
查看>>
iOS后台解析
查看>>
Android View 深度分析requestLayout、invalidate与postInvalidate
查看>>
3.操作系统简单介绍 操作系统发展历史 批处理分时系统 操作系统是什么 操作系统对文件的抽象 进程 虚拟内存是什么 操作系统作用 操作系统功能...
查看>>
五花八门的main()
查看>>
PHP中的正则表达式及模式匹配
查看>>
当爬虫被拒绝时(Access Denied) - 风中之炎 - 博客园
查看>>