清華胡事民:從圖形學到靈境計算

靈境計算是如今元宇宙、全真互聯網、web3.0等新興概念的高度概括,圖形學在其中占據著重要的角色,那麼實現靈境計算的核心技術包括哪些呢?在2022智源大會上,針對圖形學和靈境計算,來自清華大學計算機科學與技術系的胡事民教授作瞭題為《從圖形學到靈境計算》的報告。

胡事民,清華大學計算機系教授,可視媒體研究中心主任。 2002年獲得國傢傑出青年基金資助,2006年-2015年擔任國傢重大基礎研究(973)計劃項目首席科學傢,2007年入選教育部長江學者特聘教授,2016-2021年擔任國傢自然科學基金委創新群體項目學術帶頭人。主要從事計算機圖形學、虛擬現實、智能信息處理和系統軟件等方面的教學與研究工作,已在ACM/IEEE Transactions和CVPR等重要國際刊物和會議上發表論文100餘篇。曾擔任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多個國際重要會議的程序委員會主席和委員,曾任和現任IEEE、Elsevier、Springer等多個期刊的主編、副主編和編委。

計算改變人類文明進程

計算機是人類最偉大的發明之一,計算改變瞭人類文明的進程。計算技術和系統每10-15年會發生一次重大變革,計算技術的發展促使瞭新形態的誕生。60年代科學計算興起,當時,核武器等相關的大量科學計算,催生瞭大型計算機。到瞭70年代,企業的生產需求使得小型機和服務器得到廣泛應用。而到瞭90年代,PC機日漸普及。2000年左右,互聯網成為我們生活的必需品,而以智能手機為代表的移動互聯網在2010年左右成為主流。而在如今的時間節點,未來最重要的目標是什麼?從計算技術角度來講,VR/AR技術(也稱靈境計算)將會為計算帶來巨大的變革。

計算機圖形學改變瞭計算機的形態

圖形學是利用計算機研究圖形的表示、生成、處理和顯示的科學。最早MIT在旋風1號計算機上利用顯示器搭建空中防禦體系,當時的博士生Ivan Edward Sutherland提出瞭圖形學的概念,後獲得瞭1988年的圖靈獎,博士論文是人機交互通訊的圖形系統。後來他的學生Alan Kay提出瞭面向對象編程,使用瞭窗口圖形界面技術,他也是PC機概念的提出者,並獲得瞭2003年的圖靈獎。

此後,圖形學被廣泛應用在各個領域,包括CAD和各種產品設計、圖形渲染,再後來Patrick M. Hanrahan和Edwin E. Catmull獲得2019年圖靈獎,他們的工作將圖形學技術和軟件進行瞭很好的結合,改變瞭整個好萊塢動畫工業生產線,對電影制作和計算機圖像生成產生瞭巨大影響。

圖形學既然能生成逼真的好萊塢大片甚至是超越真實的場景,那麼它一定也能夠給我們的生活工作帶來更大的變化。可以說,圖形學改變瞭計算機的形態,使得計算機和移動終端、智能終端成為人類最親密的夥伴。靈境計算,VR設備的發展、圖形技術的發展,特別是最近幾年人工智能深度學習的快速發展,這些技術飛躍結合在一起的化學效應催生瞭一些新的計算形態。

而國內方面,早在1990年,錢學森先生在給汪成為院士的書信中,已給VR起名為“靈境”,還解釋說此譯名“中國味特濃”。進入新世紀,2020年騰訊馬化騰提出“全真互聯網”的概念,2021年以Facebook、微軟代表的國際企業也開始炒作“元宇宙”。最近國內各個地方政府都在制定科研發展規劃,這當中上海已經把“元宇宙”寫進瞭規劃,而北京市政府準備以web3.0的名義推動相關行業的發展。這些概念放在一起可以用“靈境計算”來描述。

靈境計算的核心技術

從圖形學角度來看,靈境計算的核心技術涉及到靈境構建,真實世界的數字化、虛擬化身、虛擬場景的合成。靈境和現實世界之間需要理解和交互,涉及到場景語義理解、場景交互、心理計算,同時又需要平臺和軟硬件的支撐,包括圖形平臺、AI框架、芯片、VR/AR設備、操作系統等。

靈境構建

靈境構建是針對人、物、場景進行數字化和虛擬化,為靈境提供“客觀物理世界”。對物、景、人分別需要關註真實世界數字化、虛擬環境合成以及虛擬化身。

真實世界數字化。胡事民教授團隊希望基於視覺相機掃描,采用三維重建技術實現對真實世界的數字化:

案例1-大場景高精度重建:

構建深度數據不確定度的概率模型,抑制噪聲並保持幾何特征,提高瞭重建精度。這是清華大學2018年發表在ACM TOG上的工作。

案例2-大場景三維全景重建:

通過拼接多個消費級相機擴大視野,由定點旋轉生成三維全景圖,達到毫米級的重建。下圖的左邊是一個可以原地旋轉的機器人,上面搭載瞭三個拼接在一起的Kinect。這是清華大學2020年發表在ACM TOG上的工作

案例3-三維場景的隱式重建:

將場景表示為稀疏的概率局部隱式體素,通過體素內采用隱向量定義的神經隱式場表示,可以把在線三維重建內存減少90%。這是清華大學2020年發表在CVPR上的工作。

虛擬環境的合成。胡事民教授團隊通過提取虛擬對象的關聯關系,快速生成合理的虛擬三維場景。

案例4-滿足用戶偏好的場景交互合成:

基於關聯關系和用戶歷史輸入的聯合優化,實時推薦鼠標位置的侯選物體。對於一個虛擬場景,系統根據用戶的鼠標位置自動推薦侯選的擺放物體,快速完成場景構建。這是在TVCG和ACM MM上的工作。

案例5-滿足幾何約束的VR場景構建:

基於關聯關系和真實場景幾何覆蓋的聯合優化,合成佈局合理且與真實場景幾何一致的虛擬場景。這是2021年發表在TVCG上的工作。

案例6-沉浸式街景漫遊:

基於街景數據,采用AI算法重建合成新的視角,實現沉浸式街景漫遊。下圖中的學生在清華教學樓走廊裡行走,戴上頭盔後看到的是清華的校園。其實現原理是將騰訊街景數據通過AI重建和插值,構建一個三維沉浸式街景漫遊。

虛擬化身。構建寫實數字人需要利用AI技術,通過便捷設備采集圖像重建高精度人體幾何、編輯紋理材質,實現高效和規模化的寫實數字人的生產。數字人非常受關註,因為模型資源和計算量消耗比較大,難以在端側實現。在目前的網絡帶寬條件下,如果要構建全真寫實數字人挑戰巨大,胡事民教授團隊嘗試在靈境環境中做個性化的卡通虛擬形象,從真實人臉照片中生成可驅動三維卡通人臉,支持語義化表情驅動。

理解與交互

靈境計算的第二個核心技術是理解與交互。虛擬化身在靈境空間,需要和場景空間做一些交互和理解。理解交互首先是研究真實和虛擬場景的語義理解,探索人對靈境空間的高效交互模式以及靈境空間對人心理和認知的影響。這當中涉及到靈境空間的語義理解、高效交互和心理計算。

語義場景理解。胡事民教授團隊希望通過視覺等感知通道,采用深度學習方法,理解場景中的基本語義單元,支持精準交互。

案例1-顯著性實例分割:

通過包圍盒周圍的語義信息提高瞭顯著性實例分割的結果。

案例2-人像分割:

利用人體模板實現視線遮擋情況下的高精度人體分割,這是語義理解中的底層技術。這是清華大學2019年發表在CVPR上的工作。

案例3-三維場景語義理解:

一種適應在線的三維語義理解的超體素卷積和增量式聚類方法,既保證效率,又實現更高精度語義分割效果。這是清華大學2021年發表在ACM TOG上的工作。

虛擬場景的高效交互。總體目標是希望基於人的交互意圖分析和交互誤差建模,讓虛擬環境交互更“貼心”,更“省力”。

案例4-速度感知的手部運動重映射:

以速度為線索感知用戶交互意圖,測量手部交互運動誤差,實現虛擬交互中手部運動的重映射。

案例5-基於強化學習的重定向行走:

人在行走時會看到一個視景變化。但是因為物理空間很小,如果想要看到更廣闊的空間,在碰到墻壁時就需要轉身,這稱為行走重定向,在虛擬現實中重定向發生越少越好。人在閉著眼睛走時,對自己的行為有一定容差的,比如用戶實際在偏轉,但以為自己在走直線。胡事民教授團隊利用這一心理上的特點,通過強化學習技術構造行走偏轉和重置的統一化框架,減少行走重定向和優化虛擬環境軌跡,使得漫遊重置次數減少30-70%。這是清華大學2022年發表在TVCG和VR上的工作。

靈境空間的心理計算。靈境空間是一個虛擬場景,需要建立靈境空間對人虛擬影響的可計算模型,實現虛擬內容的虛擬影響度量和操控。“真實”是由意識構成的,人會利用知識,對支離破碎的外界刺激進行修補,形成“真實”的認知。相關工作探究瞭人的心智在虛擬環境中的可塑性,虛擬現實對人的行為與身份認同的深度操控,和虛擬沉浸和化身對主體的長期影響。

案例6-VR教學虛擬凝視:

老師註視學生有正面作用,學生可以學習更加專心。現實中,老師需要把視線平均分配到學生身上,VR教學虛擬凝視,使得每個學生都認為自己是唯一被老師註視著的人。

案例7-VR談判:

身高較高的虛擬談判者更容易談判成功,並且在虛擬現實中獲得的信心,在真實世界中依然持續。

除此之外,未來的研究需要進一步建立靈境空間對人心理影響可計算模型,實現虛擬內容心理影響度量和虛擬內容的可控生成。未來趨勢從定性到定量,從計算模型到實際應用會進一步發展。

平臺與框架支撐

平臺支撐靈境計算的各種應用,各種智能芯片、VR設備都快速發展,而靈境計算的操作系統還正處於探索階段,技術軟硬件平臺都面臨“卡脖子”問題。

三維圖形內容處理是數字內容產業的核心技術,也是虛擬現實、智慧城市、自動駕駛、數字孿生共性的基礎。目前,代表性的業界圖形平臺主要是國外的Unity、Unreal,其占有率超過50%,處於市場統治地位,工具鏈比較成熟,但是架構和采用技術相對固化和落後,版本間兼容性差,對新技術、新設備的支持並不友好。

盡快構建國產智能圖形平臺非常重要。下圖是不鳴科技自主研發的混沌引擎-Chaos所生成的效果,效果顯著。這類開源的圖形平臺應該支持神經渲染、實現復雜場景、材質和光照效果的高效繪制,共同努力打造開源國產的三維圖形平臺,構建生態,使得圖形平臺更加有保障。

AI框架是目前靈境計算中非常核心的支撐技術。計圖是國內首個高校主導的開源深度學習框架,包括兩個重要的創新,一是統一計算圖,二是元算子融合。

在深度學習框架裡,每個框架都有大量算子。比如Tensorflow有2000多個,PyTorch有700多個,這些龐大算子庫的維護和優化都非常困難。計圖創新在於把神經網絡計算需要的基本算子進行歸納和總結,提出瞭18個元算子,提出“元算子融合”的概念,這樣做的優點是效率高,易於開發,統一優化。

計圖框架的特點是多瞭元算子層,由元算子合成成百上千個算子,支撐人工智能的應用。元算子被分為三類:重索引算子、重索引化簡算子和元素級算子。重索引是一對多算子,例如廣播算子把一個向量變成矩陣。重索引化簡是多對一算子,例如累加算子把一個矩陣每行相加得到一個向量,元素級是一對一算子,例如兩個向量通過逐元素相加變成新的向量。三類元算子放在一起能夠完成各種算子的合成,支持人工智能的訓練和推理。元算子有一個很好的性質就是反向傳播閉包,任何由元算子合成的算子,反向傳播也可以由元算子合成,保證理論體系完備性。

元算子特殊的益處使得計圖在人工智能國產生態上具有非常大的優勢。對任何一款芯片來說,隻要適配計圖中的18個元算子,其他上百、上千個算子可以自動完成適配。胡事民教授團隊對國產芯片的技術路線做瞭分析,對標國外英特爾、AMD、NVDIA等,國產芯片像龍芯、飛騰、鯤鵬等CPU,盡管技術路線不同,都可以通過C++代碼實現Jittor框架與芯片的適配;對國產的GPU和AI芯片,盡管采用技術路線差異非常大,但通過采用CUDA、ROCm、OpenCL、BANG、ACL等,也可以將這些芯片都支持起來,並有望構建全國產的人工智能生態。

第二個計圖創新點就是統一計算圖。計算圖是深度學習框架用來描述模型的數據結構,從輸入到輸出,中間有很多算子來實現訓練。谷歌提出瞭“靜態圖”的概念,把整個計算圖統一發送到硬件設備上進行優化,取得非常高的效率,缺點是靈活性不高。Facebook反其道而行,把計算圖做成動態,根據中間運算結果選擇不同的分支,動態算子發送,靈活性高,缺點是不能做全局優化。清華統一計算圖希望把兩者的優點結合起來,既能夠做高效優化,又保持靈活性,提出動態切分、靜態子圖的概念。在靜態子圖上做優化,又不失動態的優點。進一步還把算子再分解成元算子,在元算子層面再進行優化,使得計圖性能上有比國外框架更大的優勢。

計圖框架目前也有一些新的進展:

點雲學習:首次將Transformer用於具有不規則性和無序性的點雲深度學習,提出新的鄰域嵌入和註意力機制,增強其特征表示能力,在點雲分類、點雲部件分割和點雲法向量估計等任務上都取得瞭最好結果。團隊提出的點雲學習框架模型PCT受到學術界很大的關註,去年刊登在清華出版社的CVM雜志上,被引用瞭194次。

網格學習:對不規則的網格數據,提出瞭一種基於細分結構的網格卷積網絡,通過構造多分辨率的層級表示和定義面片卷積運算和采樣方法,使得主流的圖像骨幹網絡模型可以方便遷移到三維模型的學習任務。

可微渲染庫JRender:計圖的可微渲染庫目前實現兩個主流的可微渲染器N3MR和SoftRas,支持金屬度、粗糙度材質渲染,以及表面渲染和大場景的體渲染。在同樣芯片上采用計圖框架可以比采用PyTorch的渲染速度提升4.9-21.7倍。

總結

靈境計算是相關軟硬件瓶頸突破後的必然,有望成為後疫情時代生產生活的新形態,但仍有大量問題尚未解決。AI框架是靈境計算最主要的支撐,未來的圖形平臺,靈境中的理解和交互,必將構建在AI框架上。胡事民教授最後強調,國內同仁需要共同努力,形成靈境計算的關鍵技術引領和國產化靈境計算的軟硬件生態。

來源:智源社區

鏈接:曬科網

赞(0)