登录  | 加入社区

黑狼游客您好!登录后享受更多精彩

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

查看: 689|回复: 0

像git一样利用AI数据集!免费数据托管工具上线,让模子用「活」的数据集训 ...

[复制链接]

934

主题

934

帖子

0

现金

黑狼菜鸟

Rank: 1

积分
0
发表于 2020-12-24 03:48:01 | 显示全部楼层 |阅读模式 来自 美国

原标题:像git一样利用AI数据集!免费数据托管工具上线,让模子用「活」的数据集练习

贾浩楠 发自 凹非寺

量子位 报道 | 公众号 QbitAI

搞呆板学习的人,许多都饱受数据管理的折磨。

要么是数据集老旧,必要手工修订标注。

要么是同一个数据集有许多被别人调解过的版本,无从动手。

大概,干脆没有符合数据集,必要本身创建。

fcgwd9hG9gw1HaMi.jpg

国外,一位名叫 Simon Lousky的步伐员小哥终于不能忍了,开辟出了一套用于呆板学习的 数据版本控制工具(Data Version Control,DVC)

一键调用数据集、一键检察编辑汗青……最紧张的是,在DVC工具背后,有一个GitHub一样的 数据托管社区

“盘活”数据集

Simon Lousky在门生期间做项目时,就已经感受到了呆板学习数据集管理未便的痛点。

其时,他的模子必要一个植物和花朵的数据举行练习,而开源数据集无论怎样也得不到公道的效果。

于是他本身花了几个小时的时间,逐一修正了数据会合大量过期、不公道的标注,之后练习效果让人非常满足。

ZLNNKrSTKVIF5r1Y.jpg

睁开全文

除了这个项目,他之后又举行过许多数据集的修正、增补、创建工作,他把这些费时费力的工序称为“数据集的调试试错”,而且开始故意记载操纵汗青。

他渐渐发现,本身的项目中,数据管理总是一塌糊涂,而依赖GitHub托管的代码,却不停井然有序。

那为什么不做一个雷同GitHub、专门服务数据管理的工具呢?

DzOh77MF78VOHOOi.jpg

DVC就如许诞生了。

这是一个预装的工具库,实现功能包罗对数据集的调用、汗青操纵信息的检察等等功能。

它的出现,意味着之前,研究职员在当地“死”的数据集上练习模子的方式彻底改变。

你可以将项目链接到在线托管的数据集(或任何文件),创建及时、正确的接洽。数据集的任何更新变更,都能实时获知,方便项目标开展。

BMz2X9XhhWHpD2xH.jpg

好比,如今有一个Repository A,这是一个“活”数据集,此中元数据文件,指向存储在专用服务器的真实大文件。

用户可以将数据集文件构造到目次中,并添加带有utils函数的代码文件,以此来方便调用。

别的,另有一个Repository B,这是对应呆板学习项目,项目代码中,包罗利用DVC导入数据集的指令。

只要创建一个数据注册表,就能创建A和B之间的接洽:

此时,数据集目次会是如许:

xS9pdcpcU4p5Jy5i.jpg

必要检察数据集相干信息时,输入指令:

数据集的预览会生存到一个目次里,这个目次也会被DVC跟踪。

然后用户只必要把代码和数据推送到托管堆栈,如许就随时随地访问它,并与其他人分享。

固然,DVC要发挥作用,天然少不了背后的 DAGsHub

sW5QtfPZeZkKTKpZ.jpg

DAGsHub就是一个GitHub的数据管理版本,由三部门构成,git堆栈、DVC、和呆板学习流程平台mlflow。

用户可以提交本身的项目,DAGsHub会主动扫描提交,并提取有效的信息,如实行参数,数据文件和模子的链接,并将它们联合到一个简朴的界面。

E1reiCBqhjqJ9Qe2.jpg

DAGsHub可以欣赏和比力代码、数据、模子和实行,而且不必要下载任何东西。

别的,还能天生可视化数据管道、数据操纵汗青,并记载模子性能,主动且雅观。

如安在呆板学习项目中利用“活”数据集

要利用DAGsHub,只必要注册登录。

k23B32L3bN2nZljh.jpg

通过以下指令安装DVC:

在DAGsHub上找到一个数据集,如安在本身的模子中利用它呢?

起首,要从托管的数据会合导入一个目次,并把它看成原始文件:

接着,图片和解释就会下载到你本身的项目中,并保存此中汗青信息的信息。

OZTKatxtZ5meC456.jpg

当你想要知道数据集的变动汗青时,只需运行下令:

dvc update

就能将可视化效果返回默认目次生存:

nRyRvVt2U6R4yZzy.jpg

是不是很方便?

对了,无论是DVC,照旧DAGsHub,都是开源且免费的,赶快来试试吧

传送门:

DVC教程:http://dagshub.com/docs/experiment-tutorial/2-data-versioning/

DAGsHub主页:http://dagshub.com/

本文系网易消息•网易号特色内容鼓励筹划签约账号【量子位】原创内容,未经账号授权,克制随意转载。

参加AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!接待AI从业者、关注AI行业的小同伴们扫码参加,与 50000+名挚友共同关注人工智能 行业发展&技能希望

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技能和产物新动态

一键三连「分享」、「点赞」和「在看」

科技前沿希望日日相见~返回搜狐,检察更多

责任编辑:





上一篇:广州知识产权研究与服务中央将打造知识产权创新服务平台 ...
下一篇:【苹果关闭iOS12.5体系验证通道,iPhone6的iOS12.5.1不再答应降级】 ...
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

 

QQ|申请友链|小黑屋|手机版|Hlshell Inc. ( 豫ICP备16002110号-5 )

GMT+8, 2024-5-13 07:52 , Processed in 0.166184 second(s), 47 queries .

HLShell有权修改版权声明内容,如有任何爭議,HLShell將保留最終決定權!

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表