当前位置: 模型材料 >> 模型材料优势 >> ldquo表情移植神器rdquo
作为一个有底线的颜控,追剧总是很烦恼:那些好看的小鲜肉小鲜花,演技大多不咋样。有些粉丝甚至会想:可不可以把戏骨的演技嫁接到全程“瘫痪”的爱豆身上?这听上去太难了吧。
不过最近,发明GPU的公司核弹厂英伟达(NVIDIA)发布了两项重磅技术,让这个有望实现了。一个技术是上个星期发表的与MIT联合研究的“视频-视频合成”技术(video-to-videosynthesis,下文简称vid2vid)。
图
参考资料1
另一个是礼拜一德国发布会上黄仁勋(JensenHuang)重磅推出的新一代“图灵框架”卡皇RTX,实现了实时光线追踪(Real-timeraytracking)技术。
图
官方发布会截图
被黑科技闪瞎双眼的吃瓜群众们瞬间脑洞大开:这两个堪称“表情移植神器”和“实时渲染怪力圣器”的家伙,是不是可以让影视特效技术大飞跃、能让流量明星从此年产无数部高质量抠图剧呢?
现有的抠图
《孤芳不自赏》
vid2vid:由视频合成视频
/*
别走,这段强行科普后面有新垣结衣!
*/
NVIDIA与MIT的联合研究团队发表的这篇文章名为《视频-视频合成》(Video-to-VideoSynthesis),顾名思义,就是从一个原始输入视频,经过合成处理,输出一个新的视频。
输入的内容主要有两个:一个是主体视频,叫做“语义图”(semanticmaps),我们可以把它看作是视频动作的“骨架”;另一个是“现有图像”(pastimages),我们可以把它看作是视频内容的“皮肉”。
图
参考资料1
语义图和现有图像作为原材料,喂进了一个叫做“顺序生成器”(sequentialgenerator)的模型当中,输出两样东西:“中间帧”(intermediateframe)和“流谱”(flowmap)。“流谱”被用来使“现有图像”产生变化,变化后的图像与“中间帧”结合生成“输出图像”(也可以叫做“输出帧”,毕竟,常识告诉我们,视频是一帧一帧的画面连接起来的)。这个“输出图像”,被迭代进模型,作为下一次运算输入的“现有图像”。
此外,还有两个“鉴别器”——“图像鉴别器”(imagediscriminator)和“视频鉴别器”(videodiscriminator)。它们被用来评估每一帧画面中的各个特点,以及时间上的连续,来确保输出视频的清晰度、逼真程度、以及时间一致性。
图
参考资料1
嗯,我猜大家并不想看这样??
这样??
以及这样??的模型
那我们来看视频。
图
参考资料1
在研究团队放出的视频中,作为“原材料”被输入的视频,也就是我们说的“骨架”,都是一些抽象的、表示动作的“语义图”。
比如这个??
图
参考资料1
这段是从开放城市数据平台Cityscape上下载的街景视频,通过一系列算法处理成格式统一的“语义图”视频流。我国城市也有类似的信息,比如Apolloscape这个城市街景数据平台,目前就有73个关于北京的街景视频,在这个项目中被用作训练数据和检验数据。有兴趣的小伙伴可以点进去玩儿(复制右边的链接去浏览器打开→
转载请注明:http://www.aideyishus.com/lkgx/734.html