谷歌大脑组合模子霸榜SuperGLUE

星宇心空 · 发表于 2020-12-24 03:39:01

【CSDN 编者按】2020 年12 月31 日，谷歌大脑的研究科学家 Adams Wei Yu 在交际媒体发布消息，公布实现了新的 SOTA（state of the art 即实现该范畴已知的最好结果）

作者 | 八宝粥责编 | 张文

头图 | CSDN 下载自东方 IC

出品 | CSDN（ID：CSDNnews）

“哦我酷爱的老店员，感谢 ZiruiWang 老师，他实时的提交让 Google Brain 在 2020 年还能在 SuperGLUE 榜首霸占约莫 12 个小时.”

睁开全文

12 月 30 日，他向各人先容了来自微软 DeBERTa 团队取得了显着希望，并在批评当中对 T5 模子举行简朴的评价。

12 月 31 日，Zirui Wang 的 T5 和 Meena 联合的模子总得分 90.0 分，以 0.1 分的上风击败了 DeBERTa 团队的组合模子占据榜首。0.1 的差距看起来很小，但究竟上，微软比 SuperGLUE 人类基线也之只多了 0.1 分。

SuperGLUE 是什么？

SuperGLUE 到底是什么呢？

SuperGLUE 是 Facebook 人工智能研究中央、Google DeepMind、华盛顿大学以及纽约大学在 2019 年 8 月共同推出的，用于权衡如今高性能语义明白 AI 的基准测试。它的前身是纽约大学、华盛顿大学和 Google DeepMInd 在 2018 年 4 月共同组建的基准测试 GLUE (General Language Understanding Evaluation) benchmark。

两个网站页面根本相似，他们的区别在于研究单元和评价指标差别。

SuperGLUE 的到场研究单元多了 Facebook 人工智能研究中央和三星研究院。

评价指标方面，GLUE 基准测试包罗了 9 个语句明白使命。分别是

单句使命（CoLA 语言可担当语料库；SST-2 斯坦福感情树库）
相似性和外派使命（MRPC 微软研究释义语料库；QQP Quora 问答；STS-B 语义文本相似性基准）
推理使命（MNLI 多体天然语言推理语料库；QNLI 斯坦福问答数据集；RTE 辨认笔墨蕴含；WNLI 威诺格拉德天然语言推理）

单句使命（CoLA 语言可担当语料库；SST-2 斯坦福感情树库）

相似性和外派使命（MRPC 微软研究释义语料库；QQP Quora 问答；STS-B 语义文本相似性基准）

推理使命（MNLI 多体天然语言推理语料库；QNLI 斯坦福问答数据集；RTE 辨认笔墨蕴含；WNLI 威诺格拉德天然语言推理）

在榜单当中, 由 GLUE 提供，现在排名 14 的人类性能基准 (GLUE Human baselines) 曾一度成为各大模子的头号目的。

该榜单名气之大，吸引了许多高校和名企前来挑衅，不停革新记录，包罗阿里、安全、华为等。

厥后，GLUE 难度不敷了，SuperGLUE 也就应运而生。

SuperGLUE 在 GLUE 的底子上增长了 Facebook 人工智能和三星研究院的支持，与此同时，它的基准测试的难度也大大进步。

两个 GLUE 的网页对比

两个基准测试在网页上并无太大差异，区别就是测试使命。

普通来说，假如 GLUE 的难度是语言明白的“十八铜人阵”，打败 GLUE baselines 就印上青龙白虎，那 SuperGLUE 就得是“八大派围攻光明顶”，没有三五年年内功别想在世下山，SuperGLUE human baseline 89.8 分在那里守着，Google 本身家 T5 都另有差距，这个好汉榜，真的不是谁都能上的。

这些大概不太直观，举点更直接的例子，GPT-3 评分 71.8分，BERT 评分 69分。对比起来，90 分是不是就是独一档的存在？

人们一度猜疑，SuperGLUE Human Baselines 还能被逾越吗？

谁占了榜首？

此前不停是 SuperGLUE Human baselines 占据榜首。

但 2020 年12 月 30 日，Google 团队的 T5+Meeena 模子和微软 DeBERTa 团队同时上榜，位列前二，得分分别是 90.0，89.9。

这也意味着，SuperGLUE Human baselines 不再是不可逾越的高峰。

细致对比就会发现，不是挑衅者太弱，是 SuperGLUE Human baselines 太强！COPA(选择公道的替换方案)满分，WSC(威诺格拉德模式挑衅)满分，CB(一个短文本语料库，包罗从句)98.9 分。真的很难逾越。

不外，统统都很难说。2019 年，埃鲁德·基普乔格不也是跑进 2 小时，突破了人类马拉松的极限了嘛～

有爱好的同砚可以检察官方网站举行探索，大概下一个得此成绩的就是你！

参考资料：

微软 DeBERTa 模子论文：http://arxiv.org/abs/2006.03654

supergluebenchmark 官网：http://super.gluebenchmark.com/

SuperGLUE 论文链接：http://arxiv.org/abs/1905.00537

gluebenchmark 官网：http://gluebenchmark.com/

GLUE 论文链接：http://arxiv.org/abs/1804.07461

程序员如何避免陷入“内卷”、选择什么技术最有前景，中国开发者现状与技术趋势究竟是什么样？快来参与「2020中国开发者大调查」，更有丰富奖品送不停！

☞GitHub 公布拆“墙”，规复伊朗开辟者利用权！

☞怎样用一句话证实你是步伐员？

☞TIOBE 1 月编程语言：Python 摘得 2020 年度编程语言！

☞Linux之父新年初次“炮轰”：英特尔在扼杀整个ECC行业

☞拼多多开除即将拿到股票的安全大佬；虾米音乐将永世关停；GitHub 解禁伊朗开辟者利用权 | 极客头条

☞Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？

点分享

点收藏

点点赞

点在看返回搜狐，检察更多

责任编辑：

谷歌大脑组合模子霸榜SuperGLUE

相关帖子