深度學習中GAN在動漫領域的應用（公開課節選）

更新：

之前有人把我演講視頻裡一部分剪出來做科普，可是強迫癥真覺得效果不行

玩瞭個AI講課版本出來讓AI來給你們講AI . 你們看看效果怎樣

——

二月底的時候，收到智東西邀請，給大傢講瞭一堂關於GAN的公開課，主要說的就是GAN的發展，以及在動漫領域的一些相關應用和進展。主要也就是幫助大傢對現在的很多工作有一個大致的瞭解，起個拋磚引玉的作用吧。

周末大概整理瞭一下公開課裡面關於動漫的部分內容，分享出來，希望對大傢有幫助。

首先，大傢聊算法在各個領域的應用之前，先要知道這些算法可以做什麼方面的應用，才能理解這些應用和自己的領域合不合適，契合度有多高。能不能用這些算法來解決。

同樣的，我們考慮GAN在動漫領域的應用的時候，首先要考慮，GAN在圖像領域是怎樣應用的。

在圖像應用領域主要有如下幾個部分：圖像生成，圖像翻譯，超分辨率，圖像補全，和交互式圖像生成等幾個方面瞭。圖像生成，前面在介紹GAN的發展歷史的時候，已經看到瞭這幾年的生成發展歷程

這幾個方面中，最關鍵的，就是圖像翻譯瞭。很多方向都是從圖像翻譯拓展而來。因此在這裡主要介紹圖像翻譯。

什麼是圖像翻譯。我們剛剛說瞭，是從一副（源域）輸入的圖像到另一副（目標域）對應的輸出圖像的轉換。它分為兩種，一種是輸入和輸出的圖像需要一一對應的，叫Paired Image-to-Image Translation 另一種是不用一一對應的，Unpaired Image-to-Image Translation。

有成對訓練數據的圖像翻譯問題，一個典型的例子是pix2pix，傳統的GAN輸入一個隨機噪聲，就會輸出一幅隨機圖像。但我們說過那樣隨機的圖像用處不大，但如果我們有一個幫手，輸入給它一張圖像，它可以完成一定的功能，最終輸出一張對應的圖像，用處就很大瞭。比如輸入一隻貓的草圖，輸出同一形態的貓的真實圖片。於是它對傳統的cGAN做瞭個小改動，它不再輸入隨機噪聲，而是輸入一張的圖片。然後把輸入的圖像作為一個condition，和生成圖一起給到判別網絡，則生成的虛假圖片就一定和這個輸入的圖片相關聯，這樣的結構可以學到x到y之間的一一映射。

它代表瞭圖像處理的很多問題，比如圖像上色，簡圖到實際圖之間的轉換等。

無成對訓練數據的圖像翻譯問題，一個典型的例子是 CycleGAN。我們有瞭GAN可以將一張圖片轉成另外一張圖片。很自然而然的，大傢就想到，我能不能將圖片從A轉到B，然後再轉回來呢？理念就是，如果從A生成的B是對的，那麼從B再生成A也應該是對的。

CycleGAN 就是基於這種想法，它使用瞭兩對 GAN，讓兩個域的圖片互相轉化一個斑馬到馬的A→B單向GAN加上一個馬到斑馬的B→A單向GAN，形成個環形，所以命名為Cycle。

CycleGAN不要求訓練的A和B數據集中的圖像一一對應，也就是unpaired。

除瞭大傢感興趣的蘋果變橘子，橘子變蘋果的效果，還有更加實用的有趣的效果，譬如將用《堡壘之夜》卡通風格的遊戲通過cyclegan轉成《絕地求生》寫實風的遊戲。長視頻效果鏈接 https://v.qq.com/x/page/s0833gs6yfd.html

而unpaired image to image translation 除瞭在兩個領域可以轉換，還可以多個領域轉換。譬如2019年 FUNIt 用少量數據，完成多領域的圖像轉換，左上角是輸入圖像，同時可以轉換成貓咪金錢豹狗等多種動物。

其他三個方向這次不展開細說，基本原理和思想很多時候是源於圖像翻譯這兩個是英偉達圖像修復和交互式圖像生成的工作展示。智東西這次英偉達專場劉老師有對論文的詳細解讀。英偉達官網上也有ai-playground試玩，大傢可以去體驗一下。https://www.nvidia.com/en-us/research/ai-playground/

接來下我們聊聊動漫領域，動漫我們都很熟悉，它本身包含動畫與漫畫兩個部分。除瞭大傢熟知的日本動漫，這幾年無論是國產動畫，還是國產漫畫，都有瞭蓬勃的發展，常常聽到大傢驚呼，國漫崛起瞭。左邊這些最近的國產動畫，比如哪吒，白蛇緣起，羅小黑戰記，右邊是一些知名度比較高的的國產漫畫，一人之下，鏢人，長歌行，非人哉，鬥破蒼穹，我想不少人都能在裡面找到自己熟悉的那一部。

中國的文娛產業，主要有幾個部分，影視，小說，動漫，遊戲，往往鼎力相助構成完整的產業鏈。影視受眾較廣，表達能力真實，細節豐富，而動漫可以增加更佳誇張的手法，在各種充滿想象力的背景環境下來進行故事表達，小說，尤其是網絡文學，妥妥的是現在的領頭軍，據統計，到現在網文作品累計達到近3000萬部，網文用戶占網民一半以上。也正是因為有大量的作品，才能大浪淘沙，精品倍出。這幾年，我們都能感受到很多精品小說不斷向影視，動漫，遊戲輸出，給大傢帶來不一樣的優質體驗。網文改編的年末大劇《慶餘年》相信大傢現在依然還回味無窮。

雖然現在動漫領域不斷有好的作品出現，可是數量還有點少。追其緣由，還是生產力跟不上的問題。過去日本漫畫發展的年代，由於是出雜志，因此漫畫是月更的，後來改成瞭周更，而且是黑白漫畫。畫師有足夠的時間來產出，沒有網絡文化的沖擊，用戶也很有耐心。而現在時代不一樣，要求也不一樣瞭。而中國漫畫這幾年在網文日更的帶動下，很多工作室選擇瞭一周兩更到三更，而且是彩漫。平臺和用戶都對漫畫作者提出瞭更高的要求。

所以漫畫作者自己也發出瞭吶喊：故事好，畫面好，就要等，故事好，更新快，畫面就會崩，畫面好，更新快，故事就不好看，而三者全占的漫畫根本不存在嘛。

要想解決生產力的問題，我們先看看國內畫師畫一幅漫畫，需要哪些步驟吧。

拿到劇本後，首先要進行動漫形象設計，人總是故事中最重要的環節。畫師時間不夠的話，很多群演，其他人物，都成瞭簡筆畫。同樣的問題也出現在一些avg遊戲裡，有的配角，往往連個立繪都沒有，隻給一個名字。這樣的問題使得一些有著宏大設定，復雜劇情的故事，如果完全精美繪制，則制作成本較高，隻繪制主要故事情節人物，則降低瞭故事和人物發豐滿度，也降低讀者的體驗。

第二個是分鏡草稿，這個是畫師創造力和水平的體現。

第三個是對草稿勾線，完成線稿。

第四個是線稿上色，黑白線稿成為彩色漫畫。

第五個漫畫的場景也是很重要的一個環節。豐富細致的背景圖，往往加分不少。

第六個是後期特效，特效有很多，核心的一個是給漫畫加上不同的光線效果，達到更加逼真的程度

提升生產力的關鍵，是改進生產工具，我們看看在動漫方向AI算法可以做什麼。

以往，想要繪制一個動漫形象總是要畫師來動手，當GAN可以開始生成人臉的時候，大傢也想到，是不是也可以生成動漫人臉呢。

當然可以，如果有同學在聽一些老師講GAN的課，往往會留個作業讓大傢試著用DCGAN來嘗試進行動漫人臉生成。不過可能大傢生成的效果都不太好，第一個原因，當然是數據集的原因。這個在後面會跟大傢說一下類似這種數據集如何清洗。第二個原因，就是算法的原因。我們來看看其他人的生成效果吧。

這張圖來自於makegirlsmoe，是復旦大學的Yanghua Jin，2017年在日本P站實習的時候做的工作。他的訓練框架來自於DCGAN的改進版DRAGAN，可以定制不同的發色，發型（長發還是短發），眼睛的顏色等多種特征來生成256*256尺寸的動漫人臉。後來他更新算法後，他還做成瞭一個區塊鏈遊戲crypko，和我開始展示的真人特征合成相似，用兩張動漫小姐姐的特征合成新的小姐姐。不過需要翻墻

到2018年Stylegan出來之後，合成效果又大幅度的提升，大神Gwern Branwen 用stylegan合成瞭更高質量的動漫人臉，而且還可以針對某個特定人生成，所謂的生成一百個明日香就是他的作品。最大動漫數據庫開源，他是這個行業的領頭人，推動著相關發展。

國內颯漫畫ios版本也上線瞭類似的工作，可以獲取不同的書靈動漫角色，然後通過合成或者定制得到動漫形象，整體生成質量比較高，比較少出現奇怪的人臉。相比較其他的產品，體驗起來速度快。

2019年底，出瞭stylegan2，上面這張圖是Gwern用新的模型和語義生成gpt-2生成的小姐姐故事。右下角是waifulabs出品的小姐姐。他們對數據清洗和優化，合成范圍更大，能夠合成上半身效果，不過服裝部分出bug的幾率還是比較大。

還記得之前提到stylegan的latent space特征分離效果極佳，因此，動漫頭像的可適配調整的語義特征，從開始的十幾個特征變成瞭幾十個特征，這還是因為人類的理解力有限，否則定個幾百個特征，也是不在話下的。

大傢肯定在想，動漫頭像可以自動生成瞭，那全身立繪還有多遠？

還真是不遠瞭，日本的幾位學者，結合pose信息，在Progan的基礎上，創作瞭PSGAN。可以實現卡通小人的服裝，動作等變換，這是512*512的一個效果，最新的效果他們已經做到瞭1024*1024的分辨率。

https://www.zhihu.com/video/1220291979705360384

由於pose結合圖像生成，可以進行服裝的變換，所以這個解決方案在修改數據集後，可以直接做換衣生成。

而使用stylegan進行換衣生成的效果最優效果為Gokhan Yildirim ICCV2019文章中的效果，因此隻要有充足的數據支持，動漫立繪自動生成指日可待。

除去圖像生成，圖像翻譯的應用裡，動漫上色算一個很重要的部分。

一個好的算法能夠大量減少畫師的工作。

現在公開給大傢體驗的算法主要有日本P站的“Paints Chainer”。它主要給大傢提供瞭自動上色功能的體驗，包含三種不同的風格，這些就是自動上色的效果。

另一個就是國內蘇州大學的zhang lvming 江湖人稱一喵，開發瞭style2paints，是目前上色效果最好的開源論文。最新情況是提供v4.5 版本下載。V4的效果是加入瞭光渲染模式，你們看這張圖就是加入瞭光渲染模式的效果。

線稿上色，分為自動上色和基於用戶的提示點上色兩種。雖然自動上色看上去簡單快捷，但是畢竟很多時候，算法上色並不會和你想要的完全一樣，而讓用戶給出他想上色的提示顏色，並根據需求上色的提示點上色，是更加實用有效的做法。

早期上色最早使用的方法都是unet，對，就是那個適合做分割的網絡，在醫學領域應用特別多。後來style2paints v3版本開始將上色分解為兩個步驟，分別由兩個GAN來完成，第一個步驟稱為“草圖階段”（Drafting Stage），該階段的上色不完全遵照線稿的分界線，是以相對隨性的方式將色彩潑灑到畫佈上。該階段的目的在於增加配色的豐富性。生成的草圖可能包含較多的上色錯誤和模糊的紋理，但充滿瞭豐富、鮮艷的配色。第二個階段稱為“精修階段”（Refinement Stage），該階段專註於修正細節問題，並將模糊的紋理清晰化，以得到最終的畫作。而且作者表示“精修階段”不僅可以修正自己算法生成的草圖，還可用於修正其他深度上色網絡（如：PaintsChainer）生成畫作中的上色缺陷。通用性強。

V3界面如圖所示。首先，用戶在線稿上添加少量“粗略顏色提示點”（draft hints，即圖 7-A中的方塊），以生成初始的草圖；同時，軟件會輸出經過修正後的最終畫作（圖 7-C）。若用戶對最終畫作的一些上色細節不夠滿意，可在草圖中逐步地添加“精確顏色提示點”（accurate hints，即圖 7-B中的圓點），並實時預覽最終畫作的效果，直到獲得滿意的上色效果為止。

就像很多檢測算法一樣，將復雜的問題分解為更簡單的子問題，能夠提出更好的解決方案。

自動上色和提示點上色各有所長，style2paints v4 v4.5版本提供瞭大量的自動配色方案，並輔助以提示點修改，並同時產生加入光線後期渲染的效果。完成一張畫作上色的效率大大提高。

除瞭動漫上色，圖像翻譯領域研究的另外一個重點就是動漫背景圖生成瞭。

自從風格轉換算法出現之後，大傢發現，原來不同風格的圖像是可以相互轉換的，出現瞭大量的研究。動漫風格作為大傢喜愛的一種，研究者眾多。效果的話，大傢應該都被之前時光相冊的新海誠風格刷過屏。

但是風格轉換出來的圖像可用於娛樂，卻不一定適合生產。究其原因，漫畫風是對現實的一種抽象，而不是添加紋理和邊界線，需要從現實世界圖像的復雜構造中高度簡化

清華大學針對這個問題提出cartoon gan，他針對新海誠宮崎駿等多種風格圖像進行GAN學習，為瞭優化效果，他們在loss上特別加強瞭對邊緣信息的考慮，保證清晰的邊緣

雖然目前看到的效果，都不足以推動行業的變革，不過很多人還在這個方向繼續研究，期待今年或者明年能看到更好的圖像轉換效果。

圖像翻譯第三個好玩的方面是卡通人臉轉換，人們總是對定制化充滿瞭興趣。能不能用人臉，生成最適合的漫畫形象，一直也是大傢想要探索的方面。

這種不成對圖像訓練，要從cyclegan 看起。這是google的李嘉銘用cyclegan跑出來的效果。如果直接cyclegan生成人臉，很容易五官什麼的有點不大對勁。或者和原圖相似度並沒那麼高。如果用普通人臉，大傢做的時候，往往有一個步驟，我開始去做stylegan人臉轉換的實驗中也使用瞭，有沒有想起來，就是alignment，人臉校正，這樣生成是不會有問題的。那動漫人臉和普通人臉的一個區別就是，動漫人臉因為數據的原因很難進行alignment。於是將普通人臉的生成改成動漫的人臉的生成，可以在loss中考慮人臉特征點的關系，就能出比較好的效果，右上是賈佳亞老師和騰訊優圖做的，右下是我之前嘗試算法出一個結果，

2019，出瞭一個算法叫u-get-it加入瞭註意力機制，也達到瞭比較好的轉換效果。

而超分辨率其實動漫領域沒啥好說的，因為有個算法waifu2x已經非常厲害瞭。

圖像補全，則有算法DeepCreamy，使用的也是英偉達之前inpaint的算法。

應用方面除瞭GAN，其他也有一些好玩的方向

左上這是漫畫圖像內容分析，由於數據庫裡有大量標簽，於是我們可以對圖像進行內容分析，給定一張圖像，有90%的幾率是，女孩，一個人，穿著日式傳統服飾，有80%的幾率是有花，長頭發，藍眼睛等等

右上這張圖是動漫人物識別，是愛奇藝做的，

這是線稿提取，P站做的，這是3D渲染2D技術，通過3D建模，然後渲染成2D效果，可以提高效率，讓一些無比艱難的手繪2D可以快速成型

這個是一張圖生成虛擬主播，輸出一張正面動漫人臉圖像，就可以生成虛擬主播，這個成果極具期待性。

https://www.zhihu.com/video/1220292982571986944

用AI助力動漫行業，改進生產工具，是一件非常有意義的事情。凡事技術先行，希望技術和產業能夠更快結合，提高生產力。讓大傢都能看到更多更好精美的作品。

相關代碼網址可以在開源項目AlphaTree GAN的動漫部分找到。

ppt 可以添加微信獲取

深度學習中GAN在動漫領域的應用（公開課節選）

tui

TUI

近期文章