当前位置:网站首页 > 今日头条 > 正文

草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛

admin 0

近年来,跟着虚拟技能的开展,虚拟人物及面部捕捉技能越来越遭到科技大厂的重视,从Epic Games与数字王国协作开发的实时数字面部捕捉技能,到Facebook发布Codec Avatars技能,再到腾讯携手Epic开发虚拟数字人物。从技能方向来看,大厂们在虚拟人物上保持着高度的一致。 腾讯、Facebook、数字王国以及国内许多游戏大厂都在不同程度的测验这一技能。

近来,在腾讯游戏学院的栏目中,腾讯互动文娱新体会与技能部助理总经理,专家工程师顾煜共享了他们此次与Epic Games协作研制虚拟数字人Siren的开发进程。

Projec雨巷朗读女声丁建华t Siren Episode 1

坏的开端

Siren是一个虚拟数字人项目,姓名取自北欧神话,女妖塞壬。相传她具有天籁般的歌喉,常用歌声引诱过路的帆海者而使航船触礁淹没。

黎叔(沈黎,腾讯互动文娱新体会与技能部理副总经理)起这姓名的时分,光留意了姓名的调性,英文不错的咱们,也都纷繁叫好。古有贞子破屏而出,今有塞壬让宅男破幕而入,这个愿景鼓励着咱们极力。

不曾想,往后的宣传中,无数人跳出来说,起什么代号欠好,偏偏要起一个“死人“的代号。一切的才干,都会遮盖双眼。英文不错,反是担负,咱们都疏忽了Siren还能被解读成死人。

好在其时,咱们并不知道这一切。假使不然,想必在研制的进程中,咱们会多了少许担负。而关于这样一个艰巨杂乱的项目,没有决心的咱们,若非无知无畏,若非轻装上阵,早已一败涂地。

实在的开端

这个项目来源于一次协作。Epic和腾讯期望找时机做技能协作,所以咱们和Epic CTO开会沟通。

会中各种方向评论,都不算靠谱,或许是太鸡毛蒜皮,或许是太虚无飘渺。终究他抛了一个主意,想要协作做虚拟音乐会,也便是一段超高质量的MV,咱们觉得还不错,所以仓促完毕下午的会议,进入了咱们喜法国敏白灵闻乐见的晚餐环节。

晚上商务请客,一顿潮汕火锅涮完,CTO碎碎念着,说咱们不太喜爱这个主意,唠嗑中聊到这个项目,没有那种眼中有光、心中有火的状况。

可是这并不重要,一肚子牛肉要消化,明日总要到来。所谓方向,即便一开端并不起眼,或许熬着熬着,做着做着,也就山穷水尽了。

但事实是严酷的。大多数主意,都不会做着做着才变得冷艳。一个好的主意,天然有打动听的力气,即便一开端那么不起眼,当你听到它,就会觉得,便是它了。虚拟演唱会的主意,还缺一点意思。

第二天,Epic的CTO同学又带来新的主意,这次的方向,便是虚拟人。所谓虚拟人,便是高质量的CG人物,能够乱真,能够交互。

这是一个风趣的主意。

并不是每个风趣的主意,都有价值,咱们又该怎么判别它的价值呢?

决议计划

关于未知范畴,终究什么主意靠谱,什么主意不靠谱,很依靠于人的直觉,但也有一些客观的办法能够判别。北黑森运用技能大学依我看来,有四佳人入肉个维度能够协助做决议计划。

你先要看可行性,再好的主意,做不出来也是白费。咱们能够接受恰当的危险,危险越大,越看不清的方向,就越需求操控投入的规划。虚拟人这个主意,有不错的可行性,电影职业特技已可乱真,而游戏职业静态画面也能比美相片,在这个飞速开展的年代,确实孕育了实时烘托的数字人技能的可能性。PC消费级硬件的功用日新月异,现已奠定了柱石。

可行性不但看大环境,自己团队是不是适宜做这个作业,也是一个重要的考虑要素。咱们团队有不错的游戏开发阅历,也能担任高档烘托技能的开发,而更重要的是,Epic的CTO Kim Libreri,来自电影职业,从事电影特效多年,赢得过两次奥斯卡奖项,有满意的职业洞见和人脉资源,是一个最佳的带头人。

看完可行性,再要看它有没有技能壁垒。假如投入做一情尘风月个很简略的技能,其他团队很简略就能复刻,那么投入的价值就不那么大。既然是探究新范畴,咱们期望“用时刻换空间”,投入更长的时刻,取得持续的堆集,而咱们也期望这个堆集,能发生一些壁垒,让他人很难简单仿制。虚拟人很契合技能壁垒的界说。这个项目在多个范畴需求做出打破,在建模精度、RIG质量、烘托作用、实时表情捕捉等各个方面都有巨大的应战。这儿有适当多的范畴,横跨了游戏和电影职业。而一切跨过距离的技能,都欠好做。游戏谈起烘托质量,电影乐了;电影聊起实时交互,游戏笑了。生疏职业的距离,那些跳过距离的不确定性,那些遇到难题的手足无措,便是技能的壁垒。

“The brick walls are there for a reason. The brick walls are not there to keep us out. The brick walls are there to give us a chance to show how badly we want something. Because the brick walls are there to stop the people who don’t want it badly enough. They’re there to stop the other people.”

Randy Pausch

网上广为流传的“终究一课”的教授,也讲过,墙并非平白无故而来,墙把草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛咱们挡在外面,仅仅要给咱们一次时机,一次证明自己的时机。它在那里,仅仅想把那些毅力不行坚决的人阻挠在外面。这堵墙,便是技能的壁垒,它不仅仅是极力的方针,也是极力的决心。由于咱们知道,当咱们翻过这堵墙,它便是咱们的壁垒,阻挠那些不行坚决的竞争者。

然后要看它有没有技能价值,这个技能,会不会发生有价值的堆集,运用到其它产品中。实验室的前沿技能,大多不能运用在实践的产品中。而能用在高韶青在我国遭受产品中的技能,往往有不行高端。咱们要寻觅的,是那些略高于现在技能水准的技能,能够在2-3年后,运用到产品开发中。

虚拟人技能,跨过了多个范畴。其间烘托质量的进步,适当多的理念都能够获益于电影职业的技能。在烘托范畴,电影职业的今日,便是游德美亚1号戏职业的明日。提早了解一些更高端的技能,对未来的游戏研制技能,也有实质性的进步。而研制进程中,也能发生许多的副产品,这些副产品,相同能够用于游戏研制,进步研制的进程技能。比方AAA游戏以及一些叙事游戏,相似《底特律—变人》、《Hellblade》等,早已开端用相似的制造管线出产过场。而更根底的照相建模、动作捕捉,也在游戏开发中越来越广泛运用。在国内职业中,许多外包公司也现已供给相似的效劳,假如自己拥免死无门有这样的设备,能够大大加快迭代的速度,也能深化研讨,开发更多风趣的功用。

终究看它能不能招引眼球,能不能被外部认可。再好的技能,做出来无人重视也是不行的。一个团队的可持续开展,需求招引人们的留意力。而这个项目,定位在跨过恐惧谷,假如能做出来,必定会十分招引眼球。

为什么说恐惧谷会是一个招引人的价值点呢?需求了解这一点,有必要要讲一下恐惧谷理论。草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛恐惧谷理论在1970年由日本机器人专家森政弘提出:

“森政弘的假定指出,由于机器人与人类在表面、动作上相似,所以人类亦会对机器人发生正面的情感;直到一个特定程度,他们的反响便会忽然变得极为负面。哪怕机器人与人类只需一点点的不同,都会显得十分显眼扎眼,整个机器人显得十分生硬恐惧,使人有面临僵尸的感觉。可是,当机器人和人类的相似度持续上升,适当于普通人之间的相似度的时分,人类对他们的情感反响会再度回到正面,发生人类与人类之间的移情作用。”

在电影职业,现已十分挨近跨过恐惧谷的阶段,许多核算机视觉作出的虚拟人,在场景中和实在艺人一同表演,粗看并无漏洞。但电影终究具有海量的资源,核算资源挨近无限。而在实时烘托范畴,并没有相似的技能,在核算才干受限,本钱不高的顾客范畴,缺少平等等级的技能。假如经过这个项目能在实时内容范畴产出满意高质量的技能,那么招引眼球这个方针并不难做到。

综上,虚拟人这个主意,十分抱负,契合上述一切条件。咱们立刻热血沸腾,和Epic一拍即合。

咱们对项目方针的界说,是十分简练的一句:Crossing the boundary。跨过影视和实时烘托距离,制造可实时交互的数字人物。

Project Siren Episode 2

协作

所以,一个跨国协作项目就开端走出了困难的第一步。谁也不曾想到,日后的研制和协作进程是多么困难。

这次的协作,比较过往项目,更为困难,咱们想要树立一个跨国团队。清楚明了的是,咱们跨过了文明,也跨过了时区,不那么张玉贞国语版全集显着却相同重要的是,咱们跨过了职业,一同作业在生疏的范畴。

这个项目的团队来自四个公司,分属四个国家。

美国的Epic是整个项目的发起人和协调人,它是领路人,带领整个团队,跨过影视和游戏职业的距离,它也是整个项目的整合者,担任把一切的作业整合到一同。塞尔维亚的3Lateral是高精度模型和Rig的开发商,担任制造高精度的人物模型,一同制造高精度的Rig来驱动模型。英国的Cubic 杀杀草纸Motion,担任实时的表情捕捉和复原。NEXT Studios则作为整个项目的Owner,在其间担任Unreal引擎的烘托增强和功用优化,供给依据Unreal引擎的高质量的人物烘托,咱们也积极参加各个研制的全进程,学习流程。

由于四个国家跨过四个时区,这让每次周会成为一个苦楚的阅历,总有一个或许两个区域的人们,在一个很为难的时刻参会。而由于一些不行明说的原因,在国内常常无法访问一个常用的视频会议效劳。但这些,都不算太大的困难,实在的困难,一向在人身上。

2017年2月,项目建立,NEXT第一批研制团队开工。

咱们尽可能把内部最好的烘托人才都投入了这个项目,但这个方向仍是比较前沿,实时烘托实在的人像,自COD的Paper开端,现已持续前进了许多年,干流AAA游戏,都能做到十分实在的人像烘托了。但关于这个项目,还嫌不行,咱们还需求研讨更好的烘托算法,开发更多的特性。

原定的办法,是Epic找一流的技能专家,给予咱们辅导,主张方向,咱们来做研讨。开发团队开端研读Paper,频频沟通。前期的几回周会,都是从论文动身,进行评论。烘托范畴的同学,用公式和幻想,进行隔空过招;非烘托范畴的同学,听得昏昏欲睡,恨不能夺门而逃。

可是咱们很快就遇到了瓶颈。

远端的资深专家,作业繁忙,仅仅抽暇给予辅导。可是前沿的烘托范畴,许多细节,除非对方直接参加深度研讨和完结,不然很难仅凭形象,来做评论和辅导。当咱们做出代码完结,假如作用有争议,遇到具体问题需求处理,无论是多牛的专家,没有深化一同做完结,投入满意的时刻,就不能判别终究完结过错,仍是论文方向过错。而一周一两次的长途沟通,信息密度和供组词频度都缺乏以弥合信息的Gap。所以,一些图画特性的开发,陷入了胶着,谁也不能压服谁。咱们徒劳地做着各式各样的测验,或是自发的,或是来自长途的主张,但一向无法有打破。

此外,前沿的烘托,也很难从纯技能侧予以推进,具体来说,大多数时分,一个特性的完结,也需求和技能美术(TA)一同把终究的作用做出来,才干有压服力。咱们这儿的团队,也有必定的技能美术才干,但还没有到能领导方向的程度。

跟着协作进一步进行,咱们逐步意识到,依靠纯程序、低频度的沟通,现已很难推进特性研制了。

协作问题的终究处理,是Epic侧换了接口人,由技能美术专家主导,和咱们烘托程序员沟通。咱们很快就发现,在更好的协作性下,两个互补的工种推进作业,一切都顺畅了许多。程序的完结,也更快有了美术侧男女做的运用,技能美术给出针对性的定见,也会引荐其他的完结办法,持续让程序员测验。

有些作业,依靠工种才干的互补,会胜于同类才干上的补充。

模特

眼看时刻一点点曩昔,过了两个多月了,其他几个团队还没有开工,他们有不同的档期组织。

咱们理应十分惊惧,惊惧来自于自傲的缺乏,从没做过的事务,不知然后下手,不知进展怎么。可是,咱们却草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛有谜相同的自傲,自傲来自于Epic的胸中有数,同类的作业他们做过屡次,只需不出问题,必定能做到更好。

2017年的GDC往后,Epic的团队也开端更多投入Siren项目。Epic有一个精英团队,专攻各种特别技能,他们的项目节奏,环绕各种展会,交给种种黑科技。Siren也是他们下一个重要的方针。

由所以长途项目,信息沟通不畅,多方一同开工,就发现了许多问题。

比方,咱们要烘托人,就需求选一个模特去做3D建模扫描。之前咱们得到的一切信息,便是找一个美丽的女孩子,参加2-3天的全程扫描,后续再有2-3天的配协作业,就能完结方针。所以NEXT的筹备作业,计划从公司内部找人参加,物色了一些不错的人选,也和对方Leader谈好了,需求援助一段时刻,咱们相谈甚欢。

可是,很快咱们就发现,要做的作业,好像超过了2-3天的全职时刻。一会要模特去做一下牙齿数据收集,一会要模特去拍个参阅相片,一会要模特去选适宜的衣服。这还没开端正式扫描,就现已有那么多小事了,正式开工往后,必定会有更多的作业。

咱们面临了一个困难的决议计划,持续用现已选好的模特,仍是换一个专业和全职的模特。

其时离需求拍LookDev的参阅相片时刻现已缺乏3周,临阵换人,时刻有点紧。但一次次让公司内部其他部分搭档请假来支撑咱们,并不是长久之计。本来是一个线上的事务,一不小心,跟线下打起了交道,活活做成了O2O(online to offline)的项目。

无法之下,咱们只好在终究关头换模特。咱们找了外部公司,找到了日后的协作艺人:姜冰洁。

曲线-中心节点

从2017年GDC,到咱们2017年末的节点,还有很长的时刻,由于整条数据出产的Pipeline十分长,从扫描到出产,有许多的进程流程,有多家公司协作。

作为一个团队,咱们也不能一向没有产出。所以Epic团队找了一个中心节点。7月底的Siggraph是一个不错的节点,时刻上比较适宜,有时机产出一些作用。

Epic团队定了个方向,做一个VR的面临面Show,他们扫描了Mike Seymou,Fx Guide的创始人。用一套彻底相同的Pipeline,把Mike模型导入了Unreal,一路趟了许多坑,把引擎流程中不适宜的当地逐个走通。NEXT这儿做的一部分烘托特性也被整合进版别,进行了一轮验证。

做这些功用的时分,NEXT的小哥哥们心里仍是有点抵抗的。本来说好了做一个美人,忽然中心参加了一个新方针,去做一个老爷爷… 咱们能够看一下相片,感受一下画风的骤变。

新的方针造成了巨大的心灵伤口,但咱们的程序员仍是十分敬业的。他们调整心态,把不同代码分支的特性,整合进了Mike的分支。

Mike的演示在VR中进行。团队进行了功用的优化,确保有尽可能高的帧数。Epic团队重用了当年做Hellblade的一切流程,加上各种新功用,做成一个1.5的版别,就直奔Siggraph了。

咱们的谜样自傲,在这次展会被小小冲击了一下,知道此事并不简略。

可能是艺高人胆大吧,往后的协作中,每次有重要展示节点之前,版别总是乌烟瘴气的,但协作各方竟然也能欣然前往会场。在Siggraph展出前夕也是如此,各种优化作用需求调整,功用不合格,Cubic Motion的表情捕捉又不能安稳作业,乃至忙到Siggraph的第二天展示,还陆陆续续有新的批改被参加现场版别。

好在Siggraph展出十分红功,在Hellblade的整套管线上,技能又得到了进一步的晋级,人物烘托的质量、捕捉和建模的精度,都有了不少的进步。假如说Hellblade的人物,还有一点数字痕迹,那么Siggraph中的Mike,现已很难识别出是一个CG制造出的人物。Mike在说话的时分,口型还略有古怪,看上去有些生硬,但假如抛开口型不看,上半部分的脸,彻底到达了开端的想象,真假难辨。

全体来说,这个中心节点是成功的。但咱们也进行了深刻地反思,为什么展前如此难堪,咱们往后需求怎么改善流程。改善的作用,是彻底无效。一模相同的忙乱,在往后的研制中屡次重现,咱们阅历了腾讯内部报告的几天忙乱,阅历了GDC前夕的通宵折腾,阅历了后续Siggraph展出前的紧迫突击。总是在展示现场奋战,直到终究一刻,才干终究搞定。

或许高科技便是这么矫情,简单不愿展示它的魅力吧。

Project Siren Episode 3

烘托

Siggraph这个中心节点的作业十分红功,验证了新的流程,Cubic Motion新的捕捉技能也渐渐老练。

而另一头,咱们的首要版别,也在慢慢推进。

咱们先在5月前后拍照了姜冰洁的Look Dev参阅相片。所谓的Look Dev,便是指咱们需求拍照模特在各个光照方向下的相片,多视点捕捉,然后在后期Unreal烘托开发中,会测验用引擎复原其时的光照状况,然后把数字模型放在相同的方位烘托,逐帧比照烘托图片和实践相片的差异,尽可能调到一摸相同。

这个做法可算让人大开眼界,由于游戏烘托其实没有要求如此准确,依据目测而不是精草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛确的比照,烘托到大致差不多就行了。换一个视点看问题,确实会得出不相同的做法,游戏的画面和实在的距离太远,想不到要如此准确去评价烘托质量。而电影本便是要以假乱真,天然用最准确的办法去推进质量改善。

听说电影职业一向便是用这样去做测验,由于CG的制造进程十分长,有许多进程,他们要不惜本钱确保每一步质量都尽可能好。假如不这么做,那么经过多个进程往后,差错就会累计和扩大,作用就没有办法看了。

我手边没有规范Look Dev的比照相片,找了两张近似的。后边两张相片,一张是实在相片,一张是Unreal中的烘托相片,留意看头发部分,能够区别实在和Unreal烘托相片。实践Look Dev作业中,会准确找到光照相同、视点相同的两张相片,来做针对性调整。当然数字环境和实在终究仍是不相同的,不行能100%复原。从上述相片来看,咱们也确实极力做到最好了。

有了科学的办法,也不代表咱们就能做出一流的作用。高端烘托,后期的改动适当奇妙,咱们也不具备才干分辩纤细的画面不同。所以咱们还需求一个CG Supervisor。

CG Supervisor是一种十分奥秘的职位,这个职位的术语,在影视职业用得较多,游戏开发职业往往称之为Art草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛 Director。他们对烘托差异十分灵敏,许多时分咱们只能含糊感知到画面有所不同,但他们却能准确定位问题,给出批改方向主张,奉告如小雪提莫何调整。

“The computer graphics supervisor, or CG Supervisor, is a person involved in the production of computer generated imagery, be it animation or visual effects. Due to the variety of productions and duties required, most CG supervisors are specialized in one area such as同志亦威猛 art , programming , or management.”

来自电影职业的CG Supervisor和电影制造的TA,辅导咱们的烘托功用开发,辅导整个项目的美术资料制造,协助咱们一步步把根底模型的质量进步,把烘托功用完善。整个Look Dev的进程,贯穿了项目的嫂子黄瓜一向,直到后期,还在不停地进行批改,力求到达最好的显现作用。

扫描

假如说程序的开发,仍是咱们量力而行,能够参加的,那么蛇宫迷情模型的制造,就不是咱们能把控的。开工数月,还没有开端扫描模型,咱们很慌张,由于模型是后边一切制造的起点。

联合团队在6月份一同去了塞尔维亚,带着模特,去了3Lateral公司扫描高精度模型。

扫描的进程,是一个照相建模的进程。咱们让女艺人在场地中站好,按下快门,数百台高清相机一同发动,从全方位拍下模特儿的各个视点的相片。这个图是一个简略的暗示,咱们其时运用的设备,会更大更杂乱。

整个运用进程并不杂乱,杂乱的是整套设备。在十几平方的扫描房,建立各种架子,放入数百台相机,光是固定相机和完结连线,这便是一个极端巨大的工程。电源线、相机操控线,接入多台电脑的USB HUB,然后电脑又经过网络衔接到一同,用一台电脑作主控。主控电脑上宣布操作指令后,多台衔接相机的电脑用适宜的拍照参数,一同操作数百台相机拍照。数百台单反相机快门一同触发,汇成一声巨大的咔嚓。然后千百兆比特的相片在网络中传输,汇总到主控电脑,做进一步的处理。

捕捉脸部模型的设备,是在几周前才开端拼装的。整个体系从结构上来看并不算杂乱,但由于部件比较多,所以全体简略出问题。比方有一阵子,按下快门后小婷的假期,有几组相草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛机没有跟着其他相机一同拍照。

这类设备的Debug进程,和电脑装机差不多,无非便是换换零件,插拔线头,重新发动。老外们忙了半响,开端置疑到USB Hub。咱们凑曩昔看热闹,发现整套设备各种巨大上,但其间的USB Hub设备,用了我国的某盛行的低端品牌。连我家里都厌弃的品牌,他们竟然用在工业等级的设备上?

咱们赶忙奉告他们,这个牌声韵歌子质量一般,主张全换掉。只可惜,塞尔维亚体会不到早上下单晚上到货的效劳。他们只好先从公司找了几个备用的USB Hub,换下草狗,腾讯虚拟数字人“Siren”的开发进程(上),甲醛出问题的几个Hub。可是这些Hub的问题不是不能用,而是不安稳,时好时坏。大多数时刻是可用的。整个体系有上百个Hub,出问题概率就不低了,有某个Hub出问题了,就要重拍,咱们在胆战心惊中进行着后续的拍照。

几天拍照很快曩昔了,咱们一边帮助,一边学习。期间收集了许多的数据,包含静态脸部数据,身体数据,牙齿数据,眼睛的特写数据和各种表情数据。姜冰洁一会摆成人字,一会摆成鲛人直播歌唱的日子S字,一会瞪大眼睛,一会兴起腮帮,做出多样的动作,满意着各种扫描需求。

完结收集数据后,Epic、Cubic Motion和咱们各自回国,后续的建模作业,就全留给3Lateral了。

几周后,静态的模型逐步交货。咱们的团队也就开端了LookDev的进程。3Lateral团队持续忙着做后边的Rig体系,为面部表情做好预备。

动作捕捉

有了模型,有了烘托,还少了一个重要的环节:怎么让这个虚拟人物能够动起来。

受限于技能和精度要求,动起来这个使命,被分红两部分。一部分是动作捕捉,一部分是表情捕捉。外界也有些动补技能,能够合二为一,但关于这个项目,精度和功率都不能到达需求。

动作捕捉是相对老练一些的技能。动作捕捉现已开展了挺多年,干流的技能都有不错的体现。在AAA游戏开发中,咱们制造动画数据时分也一向在触摸。仅仅这一次,需求实时呼应,稍有费事。咱们运用了Optitrack的技能,动补的数据,需求直接在电脑上收集,然后Streaming到Unreal中,再展示到咱们的Rig中。好在这一块技能上也不算太杂乱,首要便是许多工程上的细节需求去做。

贴完传感器,开端捕捉各种动作,先走通了UE里边的Live进程,再开端细心依据动作捕捉,研讨身体Rig应该怎么改善。在模型的关节处总有各种问题,需求逐个调整,但整体来说,还简略搞定。

最难的当地,无疑是脸部表情了。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。