登录  | 加入社区

黑狼游客您好!登录后享受更多精彩

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

查看: 869|回复: 0

谷歌大脑组合模子霸榜SuperGLUE

[复制链接]

898

主题

898

帖子

0

现金

黑狼菜鸟

Rank: 1

积分
0
发表于 2020-12-24 03:39:01 | 显示全部楼层 |阅读模式 来自 法国

原标题:谷歌大脑组合模子霸榜 SuperGLUE

uH266Q7hm3EdDT68.jpg

【CSDN 编者按】2020 年12 月31 日,谷歌大脑的研究科学家 Adams Wei Yu 在交际媒体发布消息,公布实现了新的 SOTA(state of the art 即实现该范畴已知的最好结果)

作者 | 八宝粥 责编 | 张文

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

VH9w9WI63qHe9V6v.jpg

“哦我酷爱的老店员,感谢 ZiruiWang 老师,他实时的提交让 Google Brain 在 2020 年还能在 SuperGLUE 榜首霸占约莫 12 个小时.”

bz77veUcKj9P6VV2.jpg

睁开全文

12 月 30 日,他向各人先容了来自微软 DeBERTa 团队取得了显着希望,并在批评当中对 T5 模子举行简朴的评价。

id9zgj91gKlxk9J9.jpg

12 月 31 日,Zirui Wang 的 T5 和 Meena 联合的模子总得分 90.0 分,以 0.1 分的上风击败了 DeBERTa 团队的组合模子占据榜首。0.1 的差距看起来很小,但究竟上,微软比 SuperGLUE 人类基线也之只多了 0.1 分。

GDvVWPdFIBcc1pdl.jpg

SuperGLUE 是什么?

SuperGLUE 到底是什么呢?

SuperGLUE 是 Facebook 人工智能研究中央、Google DeepMind、华盛顿大学以及纽约大学在 2019 年 8 月共同推出的,用于权衡如今高性能语义明白 AI 的基准测试。它的前身是纽约大学、华盛顿大学和 Google DeepMInd 在 2018 年 4 月共同组建的基准测试 GLUE (General Language Understanding Evaluation) benchmark。

两个网站页面根本相似,他们的区别在于研究单元和评价指标差别。

SuperGLUE 的到场研究单元多了 Facebook 人工智能研究中央和三星研究院。

评价指标方面,GLUE 基准测试包罗了 9 个语句明白使命。分别是

  • 单句使命(CoLA 语言可担当语料库;SST-2 斯坦福感情树库)

  • 相似性和外派使命(MRPC 微软研究释义语料库;QQP Quora 问答;STS-B 语义文本相似性基准)

  • 推理使命(MNLI 多体天然语言推理语料库;QNLI 斯坦福问答数据集;RTE 辨认笔墨蕴含;WNLI 威诺格拉德天然语言推理)

单句使命(CoLA 语言可担当语料库;SST-2 斯坦福感情树库)

相似性和外派使命(MRPC 微软研究释义语料库;QQP Quora 问答;STS-B 语义文本相似性基准)

推理使命(MNLI 多体天然语言推理语料库;QNLI 斯坦福问答数据集;RTE 辨认笔墨蕴含;WNLI 威诺格拉德天然语言推理)

在榜单当中, 由 GLUE 提供,现在排名 14 的人类性能基准 (GLUE Human baselines) 曾一度成为各大模子的头号目的。

该榜单名气之大,吸引了许多高校和名企前来挑衅,不停革新记录,包罗阿里、安全、华为等。

ckKReKPL4R4eA2rp.jpg

厥后,GLUE 难度不敷了,SuperGLUE 也就应运而生。

SuperGLUE 在 GLUE 的底子上增长了 Facebook 人工智能和三星研究院的支持,与此同时,它的基准测试的难度也大大进步。

E8rHhrH3HIYRxRiL.jpg

两个 GLUE 的网页对比

两个基准测试在网页上并无太大差异,区别就是测试使命。

普通来说,假如 GLUE 的难度是语言明白的“十八铜人阵”,打败 GLUE baselines 就印上青龙白虎,那 SuperGLUE 就得是“八大派围攻光明顶”,没有三五年年内功别想在世下山,SuperGLUE human baseline 89.8 分在那里守着,Google 本身家 T5 都另有差距,这个好汉榜,真的不是谁都能上的。

这些大概不太直观,举点更直接的例子,GPT-3 评分 71.8分,BERT 评分 69分。对比起来,90 分是不是就是独一档的存在?

人们一度猜疑,SuperGLUE Human Baselines 还能被逾越吗?

谁占了榜首?

此前不停是 SuperGLUE Human baselines 占据榜首。

但 2020 年12 月 30 日,Google 团队的 T5+Meeena 模子和微软 DeBERTa 团队同时上榜,位列前二,得分分别是 90.0,89.9。

这也意味着,SuperGLUE Human baselines 不再是不可逾越的高峰。

细致对比就会发现,不是挑衅者太弱,是 SuperGLUE Human baselines 太强!COPA(选择公道的替换方案)满分,WSC(威诺格拉德模式挑衅)满分,CB(一个短文本语料库,包罗从句)98.9 分。真的很难逾越。

不外,统统都很难说。2019 年,埃鲁德·基普乔格不也是跑进 2 小时,突破了人类马拉松的极限了嘛~

有爱好的同砚可以检察官方网站举行探索,大概下一个得此成绩的就是你!

参考资料:

微软 DeBERTa 模子论文:http://arxiv.org/abs/2006.03654

supergluebenchmark 官网:http://super.gluebenchmark.com/

SuperGLUE 论文链接:http://arxiv.org/abs/1905.00537

gluebenchmark 官网:http://gluebenchmark.com/

GLUE 论文链接:http://arxiv.org/abs/1804.07461

2020

☞GitHub 公布拆“墙”,规复伊朗开辟者利用权!

☞怎样用一句话证实你是步伐员?

☞TIOBE 1 月编程语言:Python 摘得 2020 年度编程语言!

☞Linux之父新年初次“炮轰”:英特尔在扼杀整个ECC行业

☞拼多多开除即将拿到股票的安全大佬;虾米音乐将永世关停;GitHub 解禁伊朗开辟者利用权 | 极客头条

☞Google DeepMind 团队发布新算法,下一个被 AI 虐哭的是谁?

xjS5OIILCLIVJL26.jpg

Xbq2Yhybq6xx23xa.jpg

DrkR83p1B96D9ss9.jpg

返回搜狐,检察更多

责任编辑:





上一篇:一文剖析App推广神器deeplink(深度链接)
下一篇:连续推进渠道下沉,一月新开两家熵基科技“聪明号” ...
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

 

QQ|申请友链|小黑屋|手机版|Hlshell Inc. ( 豫ICP备16002110号-5 )

GMT+8, 2024-5-20 08:36 , Processed in 0.161838 second(s), 47 queries .

HLShell有权修改版权声明内容,如有任何爭議,HLShell將保留最終決定權!

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表