深度學習中GAN在動漫領域的應用(公開課節選)

更新 :

之前有人把我演講視頻裡一部分剪出來做 科普 ,可是強迫癥真覺得效果不行

玩瞭個AI講課版本出來 讓AI來給你們講AI . 你們看看效果怎樣

——

二月底的時候,收到智東西邀請,給大傢講瞭一堂關於GAN的公開課,主要說的就是GAN的發展,以及在動漫領域的一些相關應用和進展。主要也就是幫助大傢對現在的很多工作有一個大致的瞭解,起個拋磚引玉的作用吧。

周末大概整理瞭一下公開課裡面關於動漫的部分內容,分享出來,希望對大傢有幫助。

首先,大傢聊算法在各個領域的應用之前,先要知道這些算法可以做什麼方面的應用,才能理解這些應用和自己的領域合不合適,契合度有多高。能不能用這些算法來解決。

同樣的,我們考慮GAN在動漫領域的應用的時候,首先要考慮,GAN在圖像領域是怎樣應用的。

在圖像應用領域主要有如下幾個部分:圖像生成,圖像翻譯,超分辨率,圖像補全,和交互式圖像生成等幾個方面瞭。圖像生成,前面在介紹GAN的發展歷史的時候,已經看到瞭這幾年的生成發展歷程

這幾個方面中,最關鍵的,就是圖像翻譯瞭。很多方向都是從圖像翻譯拓展而來。因此在這裡主要介紹圖像翻譯。

什麼是圖像翻譯。我們剛剛說瞭,是從一副(源域)輸入的圖像到另一副(目標域)對應的輸出圖像的轉換。它分為兩種,一種是輸入和輸出的圖像需要一一對應的,叫Paired Image-to-Image Translation 另一種是不用一一對應的,Unpaired Image-to-Image Translation。

有成對訓練數據的圖像翻譯問題,一個典型的例子是pix2pix,傳統的GAN輸入一個隨機噪聲,就會輸出一幅隨機圖像。但我們說過那樣隨機的圖像用處不大,但如果我們有一個幫手,輸入給它一張圖像,它可以完成一定的功能,最終輸出一張對應的圖像,用處就很大瞭。比如輸入一隻貓的草圖,輸出同一形態的貓的真實圖片。於是它對傳統的cGAN做瞭個小改動,它不再輸入隨機噪聲,而是輸入一張的圖片。然後把輸入的圖像作為一個condition,和生成圖一起給到判別網絡,則生成的虛假圖片就一定和這個輸入的圖片相關聯,這樣的結構可以學到x到y之間的一一映射。

它代表瞭圖像處理的很多問題,比如圖像上色,簡圖到實際圖之間的轉換等。

無成對訓練數據的圖像翻譯問題,一個典型的例子是 CycleGAN。我們有瞭GAN可以將一張圖片轉成另外一張圖片。很自然而然的,大傢就想到,我能不能將圖片從A轉到B,然後再轉回來呢?理念就是,如果從A生成的B是對的,那麼從B再生成A也應該是對的。

CycleGAN 就是基於這種想法,它使用瞭兩對 GAN,讓兩個域的圖片互相轉化一個斑馬到馬的A→B單向GAN加上一個馬到斑馬的B→A單向GAN,形成個環形,所以命名為Cycle。

CycleGAN不要求訓練的A和B數據集中的圖像一一對應,也就是unpaired。

除瞭大傢感興趣的蘋果變橘子,橘子變蘋果的效果,還有更加實用的有趣的效果,譬如將用《堡壘之夜》卡通風格的遊戲 通過cyclegan轉成《絕地求生》寫實風的遊戲。 長視頻效果鏈接 https://v.qq.com/x/page/s0833gs6yfd.html

而unpaired image to image translation 除瞭在兩個領域可以轉換,還可以多個領域轉換。譬如2019年 FUNIt 用少量數據,完成多領域的圖像轉換,左上角是輸入圖像,同時可以轉換成貓咪 金錢豹 狗等多種動物。

其他三個方向 這次不展開細說,基本原理和思想很多時候是源於圖像翻譯 這兩個是英偉達 圖像修復 和 交互式圖像生成的工作展示。智東西這次英偉達專場劉老師有對論文的詳細解讀。英偉達官網上也有ai-playground試玩,大傢可以去體驗一下。https://www.nvidia.com/en-us/research/ai-playground/

接來下 我們聊聊動漫領域,動漫我們都很熟悉,它本身包含動畫與漫畫兩個部分。除瞭大傢熟知的日本動漫,這幾年無論是國產動畫,還是國產漫畫,都有瞭蓬勃的發展,常常聽到大傢驚呼,國漫崛起瞭。左邊這些最近的國產動畫,比如哪吒,白蛇緣起,羅小黑戰記,右邊是一些知名度比較高的的國產漫畫,一人之下,鏢人,長歌行,非人哉,鬥破蒼穹,我想不少人都能在裡面找到自己熟悉的那一部。

中國的文娛產業,主要有幾個部分,影視,小說,動漫,遊戲,往往鼎力相助構成完整的產業鏈。影視受眾較廣,表達能力真實,細節豐富,而動漫可以增加更佳誇張的手法,在各種充滿想象力的背景環境下來進行故事表達,小說,尤其是網絡文學,妥妥的是現在的領頭軍,據統計,到現在網文作品累計達到近3000萬部,網文用戶占網民一半以上。也正是因為有大量的作品,才能大浪淘沙,精品倍出。這幾年,我們都能感受到很多精品小說不斷向影視,動漫,遊戲輸出,給大傢帶來不一樣的優質體驗。網文改編的年末大劇《慶餘年》相信大傢現在依然還回味無窮。

雖然現在動漫領域不斷有好的作品出現,可是數量還有點少。追其緣由,還是生產力跟不上的問題。過去日本漫畫發展的年代,由於是出雜志,因此漫畫是月更的,後來改成瞭周更,而且是黑白漫畫。畫師有足夠的時間來產出,沒有網絡文化的沖擊,用戶也很有耐心。而現在時代不一樣,要求也不一樣瞭。而中國漫畫這幾年在網文日更的帶動下,很多工作室選擇瞭一周兩更到三更,而且是彩漫。平臺和用戶都對漫畫作者提出瞭更高的要求。

所以 漫畫作者自己也發出瞭吶喊:故事好,畫面好,就要等,故事好,更新快,畫面就會崩,畫面好,更新快,故事就不好看,而三者全占的漫畫 根本不存在嘛。

要想解決生產力的問題,我們先看看國內畫師畫一幅漫畫,需要哪些步驟吧。

拿到劇本後,首先要進行動漫形象設計,人總是故事中最重要的環節。畫師時間不夠的話,很多群演,其他人物,都成瞭簡筆畫。同樣的問題也出現在一些avg遊戲裡,有的配角,往往連個立繪都沒有,隻給一個名字。這樣的問題使得一些有著宏大設定,復雜劇情的故事,如果完全精美繪制,則制作成本較高,隻繪制主要故事情節人物,則降低瞭故事和人物發豐滿度,也降低讀者的體驗。

第二個是分鏡草稿,這個是畫師創造力和水平的體現。

第三個是對草稿勾線,完成線稿。

第四個是線稿上色,黑白線稿成為彩色漫畫。

第五個漫畫的場景也是很重要的一個環節。豐富細致的背景圖,往往加分不少。

第六個是後期特效,特效有很多,核心的一個是給漫畫加上不同的光線效果,達到更加逼真的程度

提升生產力的關鍵,是改進生產工具,我們看看在動漫方向AI算法可以做什麼。

以往,想要繪制一個動漫形象總是要畫師來動手,當GAN可以開始生成人臉的時候,大傢也想到,是不是也可以生成動漫人臉呢。

當然可以,如果有同學在聽一些老師講GAN的課,往往會留個作業讓大傢試著用DCGAN來嘗試進行動漫人臉生成。不過可能大傢生成的效果都不太好,第一個原因,當然是數據集的原因。這個在後面會跟大傢說一下類似這種數據集如何清洗。第二個原因,就是算法的原因。我們來看看其他人的生成效果吧。

這張圖來自於makegirlsmoe,是復旦大學的Yanghua Jin,2017年在日本P站實習的時候做的工作。他的訓練框架來自於DCGAN的改進版DRAGAN,可以定制不同的發色,發型(長發還是短發),眼睛的顏色等多種特征來生成256*256尺寸的動漫人臉。後來他更新算法後,他還做成瞭一個區塊鏈遊戲crypko,和我開始展示的真人特征合成相似,用兩張動漫小姐姐的特征合成新的小姐姐。不過需要翻墻

到2018年Stylegan出來之後,合成效果又大幅度的提升,大神Gwern Branwen 用stylegan合成瞭更高質量的動漫人臉,而且還可以針對某個特定人生成,所謂的生成一百個明日香 就是他的作品。最大動漫數據庫開源,他是這個行業的領頭人,推動著相關發展。

國內颯漫畫ios版本也上線瞭類似的工作,可以獲取不同的書靈動漫角色,然後通過合成或者定制得到動漫形象,整體生成質量比較高,比較少出現奇怪的人臉。相比較其他的產品,體驗起來速度快。

2019年底,出瞭stylegan2,上面這張圖是Gwern用新的模型和語義生成gpt-2生成的小姐姐故事。 右下角是waifulabs出品的小姐姐。他們對數據清洗和優化,合成范圍更大,能夠合成上半身效果,不過服裝部分出bug的幾率還是比較大。

還記得之前提到stylegan的latent space特征分離效果極佳,因此,動漫頭像的可適配調整的語義特征,從開始的十幾個特征變成瞭幾十個特征,這還是因為人類的理解力有限,否則定個幾百個特征,也是不在話下的。

大傢肯定在想,動漫頭像可以自動生成瞭,那全身立繪還有多遠?

還真是不遠瞭,日本的幾位學者,結合pose信息,在Progan的基礎上,創作瞭PSGAN。可以實現卡通小人的服裝,動作等變換,這是512*512的一個效果,最新的效果他們已經做到瞭1024*1024的分辨率。

https://www.zhihu.com/video/1220291979705360384

由於pose結合圖像生成,可以進行服裝的變換,所以這個解決方案在修改數據集後,可以直接做換衣生成。

而使用stylegan進行換衣生成的效果最優效果為Gokhan Yildirim ICCV2019文章中的效果,因此隻要有充足的數據支持,動漫立繪自動生成指日可待。

除去圖像生成,圖像翻譯的應用裡,動漫上色算一個很重要的部分。

一個好的算法能夠大量減少畫師的工作。

現在公開給大傢體驗的算法主要有日本P站的“Paints Chainer”。它主要給大傢提供瞭自動上色功能的體驗,包含三種不同的風格, 這些就是自動上色的效果。

另一個就是國內蘇州大學的zhang lvming 江湖人稱 一喵,開發瞭style2paints,是目前上色效果最好的開源論文。最新情況是提供v4.5 版本下載。V4的效果是加入瞭光渲染模式,你們看這張圖就是加入瞭光渲染模式的效果。

線稿上色,分為自動上色和基於用戶的提示點上色兩種。雖然自動上色看上去簡單快捷,但是畢竟很多時候 ,算法上色並不會和你想要的完全一樣,而讓用戶給出他想上色的提示顏色,並根據需求上色的提示點上色,是更加實用有效的做法。

早期上色最早使用的方法都是unet,對,就是那個適合做分割的網絡,在醫學領域應用特別多。 後來style2paints v3版本開始將上色分解為兩個步驟,分別由兩個GAN來完成,第一個步驟稱為“草圖階段”(Drafting Stage),該階段的上色不完全遵照線稿的分界線,是以相對隨性的方式將色彩潑灑到畫佈上。該階段的目的在於增加配色的豐富性。生成的草圖可能包含較多的上色錯誤和模糊的紋理,但充滿瞭豐富、鮮艷的配色。第二個階段稱為“精修階段”(Refinement Stage),該階段專註於修正細節問題,並將模糊的紋理清晰化,以得到最終的畫作。而且作者表示“精修階段”不僅可以修正自己算法生成的草圖,還可用於修正其他深度上色網絡(如:PaintsChainer)生成畫作中的上色缺陷。通用性強。

V3界面如圖 所示。首先,用戶在線稿上添加少量“粗略顏色提示點”(draft hints,即圖 7-A中的方塊),以生成初始的草圖;同時,軟件會輸出經過修正後的最終畫作(圖 7-C)。若用戶對最終畫作的一些上色細節不夠滿意,可在草圖中逐步地添加“精確顏色提示點”(accurate hints,即圖 7-B中的圓點),並實時預覽最終畫作的效果,直到獲得滿意的上色效果為止。

就像很多檢測算法一樣,將復雜的問題分解為更簡單的子問題,能夠提出更好的解決方案。

自動上色和提示點上色各有所長,style2paints v4 v4.5版本 提供瞭大量的自動配色方案,並輔助以提示點修改,並同時產生加入光線後期渲染的效果。完成一張畫作上色的效率大大提高。

除瞭動漫上色,圖像翻譯領域研究的另外一個重點就是動漫背景圖生成瞭。

自從風格轉換算法出現之後,大傢發現,原來不同風格的圖像是可以相互轉換的,出現瞭大量的研究。動漫風格作為大傢喜愛的一種,研究者眾多。效果的話,大傢應該都被之前時光相冊的新海誠風格刷過屏。

但是風格轉換出來的圖像可用於娛樂,卻不一定適合生產。究其原因,漫畫風是對現實的一種抽象,而不是添加紋理和邊界線,需要從現實世界圖像的復雜構造中高度簡化

清華大學針對這個問題提出cartoon gan,他針對 新海誠 宮崎駿 等多種風格圖像進行GAN學習,為瞭優化效果,他們在loss上特別加強瞭對邊緣信息的考慮,保證清晰的邊緣

雖然目前看到的效果,都不足以推動行業的變革,不過很多人還在這個方向繼續研究,期待今年或者明年 能看到更好的圖像轉換效果。

圖像翻譯第三個好玩的方面是卡通人臉轉換,人們總是對定制化充滿瞭興趣。能不能用人臉,生成最適合的漫畫形象,一直也是大傢想要探索的方面。

這種不成對圖像訓練,要從cyclegan 看起。 這是google的李嘉銘用cyclegan跑出來的效果。如果直接cyclegan生成人臉,很容易五官什麼的有點不大對勁。或者和原圖相似度並沒那麼高。如果用普通人臉,大傢做的時候,往往有一個步驟,我開始去做stylegan人臉轉換的實驗中也使用瞭,有沒有想起來,就是alignment,人臉校正,這樣生成是不會有問題的。 那動漫人臉和普通人臉的一個區別就是,動漫人臉因為數據的原因很難進行alignment。於是將普通人臉的生成改成動漫的人臉的生成,可以在loss中考慮人臉特征點的關系,就能出比較好的效果,右上是賈佳亞老師和騰訊優圖做的,右下是我之前嘗試算法出一個結果,

2019,出瞭一個算法叫u-get-it加入瞭註意力機制,也達到瞭比較好的轉換效果。

而超分辨率 其實動漫領域沒啥好說的,因為有個算法waifu2x已經非常厲害瞭。

圖像補全,則有算法DeepCreamy,使用的也是英偉達之前inpaint的算法。

應用方面除瞭GAN,其他也有一些好玩的方向

左上這是漫畫圖像內容分析,由於數據庫裡有大量標簽,於是我們可以對圖像進行內容分析,給定一張圖像,有90%的幾率是,女孩,一個人,穿著日式傳統服飾,有80%的幾率是有花,長頭發,藍眼睛等等

右上這張圖是動漫人物識別,是愛奇藝做的,

這是線稿提取,P站做的,這是3D渲染2D技術,通過3D建模,然後渲染成2D效果,可以提高效率,讓一些無比艱難的手繪2D可以快速成型

這個是一張圖生成虛擬主播, 輸出一張正面動漫人臉圖像,就可以生成虛擬主播,這個成果極具期待性。

https://www.zhihu.com/video/1220292982571986944

用AI助力動漫行業,改進生產工具,是一件非常有意義的事情。凡事技術先行,希望技術和產業能夠更快結合,提高生產力。讓大傢都能看到更多更好精美的作品。

相關代碼 網址 可以在 開源項目AlphaTree GAN的 動漫部分找到。

ppt 可以添加微信獲取

赞(0)