「AI 換臉」這幾天又熱起來(lái)了。雷鋒網(wǎng) AI 科技評(píng)論秉承以往的風(fēng)格,從技術(shù)角度簡(jiǎn)單回顧一下近幾年重要的 AI換臉技術(shù)。
Cycle GAN
Cycle GAN可以說(shuō)是所有人臉轉(zhuǎn)換嘗試重要早期嘗試。在對(duì)抗性生成式網(wǎng)絡(luò)(GANs)的風(fēng)潮中,大家發(fā)現(xiàn)只要給定源類別的樣本和目標(biāo)類別的樣本,GANs可以便捷地學(xué)習(xí)到兩個(gè)類別之間的轉(zhuǎn)換關(guān)系,就天然地適用于「圖像到圖像轉(zhuǎn)換」問(wèn)題,比如同一張風(fēng)景照的冬天到夏天、一匹馬到一匹斑馬;Cycle GAN 核心思路在于,如果能從源轉(zhuǎn)換到目標(biāo)、還能從源轉(zhuǎn)換回來(lái),就可以認(rèn)為模型很好地學(xué)習(xí)到了兩個(gè)類別間的轉(zhuǎn)換關(guān)系,也更好地保證了轉(zhuǎn)換后的圖像的品質(zhì)。不過(guò)CycleGAN的換臉效果并不怎么好,它畢竟是一個(gè)對(duì)所有類別的圖像通用的方法。
論文地址:https://arxiv.org/abs/1703.10593
Face2Face
Face2Face可以說(shuō)是一次「標(biāo)準(zhǔn)的、規(guī)矩的」的嘗試,它借助 dlib和OpenCV,首先人臉檢測(cè)器檢測(cè)出源圖片中的人臉、找到人臉上的關(guān)鍵標(biāo)記點(diǎn),然后再使用針對(duì)人臉的pix2pix轉(zhuǎn)換模型把關(guān)鍵標(biāo)記點(diǎn)轉(zhuǎn)換為目標(biāo)人臉圖像。也許是因?yàn)檫@個(gè)方法沒(méi)有給深度學(xué)習(xí)留下足夠的發(fā)揮空間,所以它的效果也一般般。
博客地址:https://towardsdatascience.com/face2face-a-pix2pix-demo-that-mimics-the-facial-expression-of-the-german-chancellor-b6771d65bf66
在此之后,英偉達(dá)和UC伯克利的研究人員們根據(jù)pix2pix改進(jìn)出了pix2pixHD,提升了人臉圖像的生成效果,而且也依然保持了原pix2pix模型的多類別通用能力。論文地址:https://arxiv.org/abs/1711.11585,開(kāi)源地址https://github.com/NVIDIA/pix2pixHD。
DeepFakes
最火熱、最廣為流傳的深度學(xué)習(xí)換臉模型無(wú)疑是DeepFakes。出現(xiàn)于 2017年底的 DeepFakes是一個(gè)深度自動(dòng)編解碼器模型(Autoencoder-Decoder),通過(guò)用源人物和目標(biāo)人物的幾百?gòu)堈掌ㄔ蕉嘣胶茫┯?xùn)練模型分別識(shí)別、還原兩人面部的能力。最后用源人物的照片搭配目標(biāo)人物的解碼器就可以完成轉(zhuǎn)換。它也對(duì)視頻到視頻的轉(zhuǎn)換有良好支持。
DeepFakes的缺點(diǎn)在于,它無(wú)法在小樣本上工作,意味著無(wú)法憑一兩張照片替換任意兩個(gè)人的臉部;模型的訓(xùn)練過(guò)程也需要消耗大量資源。
DeepFakes剛剛公開(kāi)時(shí)也僅限于技術(shù)愛(ài)好者們之間交流,也并沒(méi)有發(fā)布正式的論文。但一些蓋爾·加朵的換臉動(dòng)圖一下子引爆了關(guān)注。今年年初曾經(jīng)熱炒的「楊冪換臉朱茵」視頻也很可能是用這個(gè)方法實(shí)現(xiàn)的,因?yàn)镈eepFakes中的編碼器經(jīng)過(guò)足夠的訓(xùn)練后確實(shí)能夠具有將任意輸入人臉(比如朱茵的人臉)轉(zhuǎn)換為高質(zhì)量、高逼真度的目標(biāo)人臉(楊冪人臉)的能力。
DeepFakes的GitHub地址為 https://github.com/deepfakes/faceswap,如今它還在持續(xù)更新升級(jí);后來(lái)推出了還名為 FakeApp 的桌面應(yīng)用程序,便于更多TensorFlow玩不轉(zhuǎn)的小白用戶嘗試。雷鋒網(wǎng)深度解析文章參見(jiàn)https://www.leiphone.com/news/201803/3yF2fTIdXAStDKIa.html.
一張照片轉(zhuǎn)換面部動(dòng)作
DeepFakes 式的「把目標(biāo)圖像中的人臉換成另一張臉」可能未來(lái)也很難減小樣本數(shù)量要求和資源要求,所以也有另一種思路,那就是給定一張人臉圖像,然后根據(jù)給定的動(dòng)作讓圖中的人「動(dòng)起來(lái)」。三星莫斯科 AI 研究中心聯(lián)合斯科爾科沃科學(xué)技術(shù)研究所在今年 5 月發(fā)表的一篇論文就帶來(lái)了不錯(cuò)的結(jié)果。不僅是真人的照片,他們甚至可以讓油畫中的人自然地開(kāi)口說(shuō)話。
論文地址:https://arxiv.org/abs/1905.08233
以上提到的論文和博客PDF打包:https://ai.yanxishe.com/page/resourceDetail/987
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)) AI 科技評(píng)論整理