如图所示:左一为日文原版,主动化输出英文版(右二)和中文版(右一)
有了这个翻译神器,估计翻译组、追漫的小同伴们都该偷着乐了。
发论文、公开数据集、贸易化一条龙
在科研方面,现在该篇论文已经被 AAAI 2021 吸收,研究团队还开源了一个包罗五部差别风格(理想、爱情、战斗、悬疑、生存)的漫画,所构成的翻译评估数据集。
OpenMantra 漫画翻译评估数据集
论文地点:http://arxiv.org/abs/2012.14271
数据格式:带解释的 JSON 文件和原始图像
数据内容:1593 个句子、848 个场景、214 页漫画
数据巨细:36.8 MB
更新时间:2020 年 12 月 7 日
下载地点:http://hyper.ai/datasets/14137
OpenMantra 漫画翻译评估数据集
论文地点:http://arxiv.org/abs/2012.14271
数据格式:带解释的 JSON 文件和原始图像
数据内容:1593 个句子、848 个场景、214 页漫画
数据巨细:36.8 MB
更新时间:2020 年 12 月 7 日
下载地点:http://hyper.ai/datasets/14137
在产物化方面,Mantra 筹划上线封装好的主动翻译引擎,不但面向出书社提供漫画的主动化翻译与发行服务,也会发布面向个人用户的服务。
详细的实现步调,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全主动翻译》中举行了具体的表明。
定位笔墨
在实现漫画主动化翻译的第一步,就是提取笔墨地区。
但由于漫画的特别性,来自差别脚色的对话、结果拟声词、笔墨标注等等,都会展如今一幅漫绘图片里,漫画师会用气泡、差别的字体、浮夸的字体来显现差别结果的笔墨。
研究团队发现,由于漫画中的这些各种字体和手绘样式,纵然利用最先辈的OCR 体系(比方 Google Cloud Vision API),在漫画文本上的体现很不抱负。
在漫画中,最常见的笔墨就是脚色之间的对话,对话笔墨气泡还会被切割成多块。
这就要求主动化呆板翻译必要 正确区分脚色,还得接洽上下文留意主语的衔接、制止重复,这都对呆板翻译提出了更高的要求。
主动嵌字
Mantra 这一主动化引擎,不但可以或许区分脚色、接洽上下文正确翻译以外,还很好地办理了漫画翻译中的耗时最久、人力本钱最高的环节——嵌字。
在嵌字这一环节中,起首要擦除嵌字地区,再举行嵌字,由于日文、中文、英笔墨符的形态、拼写、组合、连读方式都不一样,以是这一环节的难度也尤其大。
实行: 数据集与模子测试
在论文中的实行部门,Mantra 团队提到现在并没有包罗多种语言的漫画数据集,以是他们创建了 OpenMantra(已开源) 和 PubManga 数据集,此中OpenMantra 用于评估呆板翻译,包罗 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译职员将数据集翻译成英文和中文。
OpenMantra 漫画翻译评估数据集(同上文)
论文地点:http://arxiv.org/abs/2012.14271
数据格式:带解释的 JSON 文件和原始图像
数据内容:1593 个句子、848 个场景、214 页漫画
数据巨细:36.8 MB
更新时间:2020 年 12 月 7 日
下载地点:http://hyper.ai/datasets/14137
OpenMantra 漫画翻译评估数据集(同上文)
论文地点:http://arxiv.org/abs/2012.14271
数据格式:带解释的 JSON 文件和原始图像
数据内容:1593 个句子、848 个场景、214 页漫画
数据巨细:36.8 MB
更新时间:2020 年 12 月 7 日
下载地点:http://hyper.ai/datasets/14137
PubManga 数据集用于评估构建的语料库,该数据集包罗解释:
项目背后:风趣的魂魄一起学习
现在该篇论文已经被 AAAI 2021 收录,产物化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画乐成利用了 Mantra 举行主动化呆板翻译。
如许的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士结业,在 2020 年建立了 Mantra 团队。
Mantra CEO 石和祥之介(上)和 CTO 日南凉太(下)
CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士结业于 2019 年。他重要专注于天然语言处置惩罚范畴的研究和开辟,包罗呆板翻译和字典天生,也是本篇论文的第二作者。
值得一提的是,石和祥之介的研究履历丰富,不但曾经在 CMU 交换访学,还曾于 2016-17 年在位于北京的微软亚洲研究院练习半年,其时他在 MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing) 天然语言盘算的研究。
如许的一对技能互补的小同伴,完成了 Mantra 的大部门工作,是不是从发量到结果都很让人倾慕呢?
假如想相识更多关于 Mantra 的信息,各人可以访问论文(http://arxiv.org/abs/2012.14271)、项目官网(http://mantra.co.jp/)或下载数据集(http://hyper.ai/datasets/14137),进一步研究。
☞ GitHub 公布拆“墙”,规复伊朗开辟者利用权!
☞ 突发!美国封禁付出宝、QQ、微信付出、WPS 等 8 款中国 App
☞ 如 何 用 一 句 话 证 明 你 是 程 序 员 ?
☞ T I O B E 1 月 编 程 语 言 : P y t h o n 摘 得 2 0 2 0 年 度 编 程 语 言 !
☞ L i n u x 之 父 新 年 首 次 “ 炮 轰 ” : 英 特 尔 在 扼 杀 整 个 E C C 行 业
☞ PostgreSQL 摘得 DB-Engines 2020 年度数据库
点分享
点收藏
点点赞
点在看返回搜狐,检察更多