首页 > 其他 > 详细

1.28学习日记

时间:2020-01-29 15:29:29      阅读:75      评论:0      收藏:0      [点我收藏+]

#继上次学习记录,我已经20天没有学习了,光玩了,快死了啊。

1.目前还是在看MTB的代码,其中预训练的部分,有很多不明白的,地方:

使用的预训练的数据集是cnn.txt,不知道是否是使用的QA数据集https://cs.nyu.edu/~kcho/DMQA/

它整个的格式是这个样子的:

技术分享图片

 

分为两个部分:一个是短文,另一个是4个@highlight,强调部分的文字并不标准在短文中出现,是summary性的。

从上述的链接中可以知道,这些附带的是问题,缺少一个单词或短语,可以从短文中找到。(也就是说也是个完形填空的类型?)

cnn数据集中有大约9万个文档,有38万个问题。

#不对,上面应该是理解错了,上面是story,下面才是问题question:

技术分享图片

 

下载下来就是为了看里面的格式,但是发现看不懂啊,是@entity用来替换上面的吗?那这是为什么呢?

那么既然有这个question文件,要story还有啥用?

2.作者给出了预训练模型的文件,太开心了啊!

 

1.28学习日记

原文:https://www.cnblogs.com/BlueBlueSea/p/12240265.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!