登录  | 加入社区

黑狼游客您好!登录后享受更多精彩

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

查看: 731|回复: 0

黑科技!漫画笔墨主动翻译

[复制链接]

942

主题

942

帖子

0

现金

黑狼菜鸟

Rank: 1

积分
0
发表于 2020-12-24 03:13:30 | 显示全部楼层 |阅读模式 来自 法国

原标题:黑科技!漫画笔墨主动翻译

pB3EwZdm1TeBu03f.jpg

【CSDN 编者按】信赖不少漫画迷都曾为了追漫画专程去学习外语,学外语的时间很累,看漫画的时间很爽。如今,东京大学两位博士研发了漫画笔墨主动翻译的一个工具,追漫再也不累了!

作者 | 神经星星 责编 | 张文

出品 | CSDN(ID:CSDNnews)

内容概要:一项关于漫画笔墨主动翻译的研究,引发了热议,由两位东京大学博士构成的 Mantra 团队发布了一篇论文,现在已被 AAAI 2021 收录,该 Mantra 项目旨在为日本漫画提供主动化的呆板翻译工具。

近来,由东京大学 Mantra 团队、雅虎(日本)等机构团结发布的《Towards Fully Automated Manga Translation 实现漫画全主动翻译》论文,引发了学界和二次元界的关注。

jUIpoo8pWdu6d41D.jpg

Te8qGOb5BSSG7tO7.jpg

睁开全文

如图所示:左一为日文原版,主动化输出英文版(右二)和中文版(右一)

有了这个翻译神器,估计翻译组、追漫的小同伴们都该偷着乐了。

发论文、公开数据集、贸易化一条龙

在科研方面,现在该篇论文已经被 AAAI 2021 吸收,研究团队还开源了一个包罗五部差别风格(理想、爱情、战斗、悬疑、生存)的漫画,所构成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地点:http://arxiv.org/abs/2012.14271

数据格式:带解释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据巨细:36.8 MB

更新时间:2020 年 12 月 7 日

下载地点:http://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集

论文地点:http://arxiv.org/abs/2012.14271

数据格式:带解释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据巨细:36.8 MB

更新时间:2020 年 12 月 7 日

下载地点:http://hyper.ai/datasets/14137

在产物化方面,Mantra 筹划上线封装好的主动翻译引擎,不但面向出书社提供漫画的主动化翻译与发行服务,也会发布面向个人用户的服务。

详细的实现步调,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全主动翻译》中举行了具体的表明。

定位笔墨

在实现漫画主动化翻译的第一步,就是提取笔墨地区。

VPinuDsMyBUDb5nZ.jpg

但由于漫画的特别性,来自差别脚色的对话、结果拟声词、笔墨标注等等,都会展如今一幅漫绘图片里,漫画师会用气泡、差别的字体、浮夸的字体来显现差别结果的笔墨。

fn3ZMWZmwUun361U.jpg

研究团队发现,由于漫画中的这些各种字体和手绘样式,纵然利用最先辈的OCR 体系(比方 Google Cloud Vision API),在漫画文本上的体现很不抱负。

在漫画中,最常见的笔墨就是脚色之间的对话,对话笔墨气泡还会被切割成多块。

这就要求主动化呆板翻译必要 正确区分脚色,还得接洽上下文留意主语的衔接、制止重复,这都对呆板翻译提出了更高的要求。

Hel9cY78nMj9j3xO.jpg

主动嵌字

Mantra 这一主动化引擎,不但可以或许区分脚色、接洽上下文正确翻译以外,还很好地办理了漫画翻译中的耗时最久、人力本钱最高的环节——嵌字。

xLQiPsjJWNlloetZ.jpg

在嵌字这一环节中,起首要擦除嵌字地区,再举行嵌字,由于日文、中文、英笔墨符的形态、拼写、组合、连读方式都不一样,以是这一环节的难度也尤其大。

实行: 数据集与模子测试

在论文中的实行部门,Mantra 团队提到现在并没有包罗多种语言的漫画数据集,以是他们创建了 OpenMantra(已开源) 和 PubManga 数据集,此中OpenMantra 用于评估呆板翻译,包罗 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译职员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集(同上文)

论文地点:http://arxiv.org/abs/2012.14271

数据格式:带解释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据巨细:36.8 MB

更新时间:2020 年 12 月 7 日

下载地点:http://hyper.ai/datasets/14137

OpenMantra 漫画翻译评估数据集(同上文)

论文地点:http://arxiv.org/abs/2012.14271

数据格式:带解释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据巨细:36.8 MB

更新时间:2020 年 12 月 7 日

下载地点:http://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库,该数据集包罗解释:

项目背后:风趣的魂魄一起学习

现在该篇论文已经被 AAAI 2021 收录,产物化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画乐成利用了 Mantra 举行主动化呆板翻译。

如许的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士结业,在 2020 年建立了 Mantra 团队。

cx85zDNQ88PNlzlD.jpg

AuzGgwTGsYW53t5L.jpg

Mantra CEO 石和祥之介(上)和 CTO 日南凉太(下)

CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士结业于 2019 年。他重要专注于天然语言处置惩罚范畴的研究和开辟,包罗呆板翻译和字典天生,也是本篇论文的第二作者。

值得一提的是,石和祥之介的研究履历丰富,不但曾经在 CMU 交换访学,还曾于 2016-17 年在位于北京的微软亚洲研究院练习半年,其时他在 MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing) 天然语言盘算的研究。

如许的一对技能互补的小同伴,完成了 Mantra 的大部门工作,是不是从发量到结果都很让人倾慕呢?

假如想相识更多关于 Mantra 的信息,各人可以访问论文(http://arxiv.org/abs/2012.14271)、项目官网(http://mantra.co.jp/)或下载数据集(http://hyper.ai/datasets/14137),进一步研究。

☞ GitHub 公布拆“墙”,规复伊朗开辟者利用权!

☞ 突发!美国封禁付出宝、QQ、微信付出、WPS 等 8 款中国 App

☞ 如 何 用 一 句 话 证 明 你 是 程 序 员 ?

☞ T I O B E 1 月 编 程 语 言 : P y t h o n 摘 得 2 0 2 0 年 度 编 程 语 言 !

☞ L i n u x 之 父 新 年 首 次 “ 炮 轰 ” : 英 特 尔 在 扼 杀 整 个 E C C 行 业

☞ PostgreSQL 摘得 DB-Engines 2020 年度数据库

Ht51ATzTAqjj1Eqe.jpg

B64433X4L4lw3w66.jpg

Ecqy48FW03OO55w8.jpg

在看返回搜狐,检察更多

责任编辑:





上一篇:【消息称iPad9接纳“Air计划”更浮滑,新iPadPro性能明显提拔】 ...
下一篇:创业公司用Serverless,到底香不香?
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

 

QQ|申请友链|小黑屋|手机版|Hlshell Inc. ( 豫ICP备16002110号-5 )

GMT+8, 2024-4-28 23:27 , Processed in 0.173536 second(s), 47 queries .

HLShell有权修改版权声明内容,如有任何爭議,HLShell將保留最終決定權!

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表