除了这个项目,他之后又举行过许多数据集的修正、增补、创建工作,他把这些费时费力的工序称为“数据集的调试试错”,而且开始故意记载操纵汗青。
他渐渐发现,本身的项目中,数据管理总是一塌糊涂,而依赖GitHub托管的代码,却不停井然有序。
那为什么不做一个雷同GitHub、专门服务数据管理的工具呢?
DVC就如许诞生了。
这是一个预装的工具库,实现功能包罗对数据集的调用、汗青操纵信息的检察等等功能。
它的出现,意味着之前,研究职员在当地“死”的数据集上练习模子的方式彻底改变。
你可以将项目链接到在线托管的数据集(或任何文件),创建及时、正确的接洽。数据集的任何更新变更,都能实时获知,方便项目标开展。
好比,如今有一个Repository A,这是一个“活”数据集,此中元数据文件,指向存储在专用服务器的真实大文件。
用户可以将数据集文件构造到目次中,并添加带有utils函数的代码文件,以此来方便调用。
别的,另有一个Repository B,这是对应呆板学习项目,项目代码中,包罗利用DVC导入数据集的指令。
只要创建一个数据注册表,就能创建A和B之间的接洽:
此时,数据集目次会是如许:
必要检察数据集相干信息时,输入指令:
数据集的预览会生存到一个目次里,这个目次也会被DVC跟踪。
然后用户只必要把代码和数据推送到托管堆栈,如许就随时随地访问它,并与其他人分享。
固然,DVC要发挥作用,天然少不了背后的 DAGsHub。
DAGsHub就是一个GitHub的数据管理版本,由三部门构成,git堆栈、DVC、和呆板学习流程平台mlflow。
用户可以提交本身的项目,DAGsHub会主动扫描提交,并提取有效的信息,如实行参数,数据文件和模子的链接,并将它们联合到一个简朴的界面。
DAGsHub可以欣赏和比力代码、数据、模子和实行,而且不必要下载任何东西。
别的,还能天生可视化数据管道、数据操纵汗青,并记载模子性能,主动且雅观。
如安在呆板学习项目中利用“活”数据集
要利用DAGsHub,只必要注册登录。
通过以下指令安装DVC:
在DAGsHub上找到一个数据集,如安在本身的模子中利用它呢?
起首,要从托管的数据会合导入一个目次,并把它看成原始文件:
接着,图片和解释就会下载到你本身的项目中,并保存此中汗青信息的信息。
当你想要知道数据集的变动汗青时,只需运行下令:
dvc update
就能将可视化效果返回默认目次生存:
是不是很方便?
对了,无论是DVC,照旧DAGsHub,都是开源且免费的,赶快来试试吧
传送门:
DVC教程:http://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主页:http://dagshub.com/
— 完—
本文系网易消息•网易号特色内容鼓励筹划签约账号【量子位】原创内容,未经账号授权,克制随意转载。
参加AI社群,拓展你的AI行业人脉
量子位「AI社群」招募中!接待AI从业者、关注AI行业的小同伴们扫码参加,与 50000+名挚友共同关注人工智能 行业发展&技能希望:
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技能和产物新动态
一键三连「分享」、「点赞」和「在看」
科技前沿希望日日相见~返回搜狐,检察更多