新多模態大模型霸榜!支持圖文混合輸入,不懂知識還能現學

關註“FightingCV”公眾號

回復“AI”即可獲得超100G人工智能的教程

點擊進入→FightingCV交流群

多模態大模型傢族,又有新成員瞭!

不僅能將多張圖像與文本結合分析,還能處理視頻中的時空關系。

這款免費開源的模型,在MMbench和MME榜單同時登頂,目前浮動排名也保持在前三位。

△MMBench榜單,MMBench是上海AI lab和南洋理工大學聯合推出的基於ChatGPT的全方位多模能力評測體系

△MME榜單,MME為騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型測評

這款多模態大模型名叫MMICL,由北京交通大學、北京大學、UCLA、足智多模公司等機構聯合推出。

MMICL一共有兩個基於不同LLM的版本,分別基於Vicuna和FlanT5XL兩種核心模型。

這兩個版本都已經開源,其中,FlanT5XL版可以商用,Vicuna版本隻能用於科研用途。

在MME的多項任務測試中,FlanT5XL版MMICL的成績已連續數周保持著領先地位。

其中認知方面取得瞭428.93的總成績(滿分800),位列第一,大幅超過瞭其他模型。

感知方面的總分1381.78(滿分2000),在最新版榜單中僅次於阿裡的千問-7B和昆侖萬維的天工模型。

所需配置方面,官方給出的說法是在訓練階段需要6塊A40,推理階段則可以在一塊A40上運行。

僅僅隻需要從開源數據集中構建的0.5M的數據即可完成第二階段的訓練,耗時僅需幾十小時。

那麼,這個多模態大模型都有哪些特色呢?

會看視頻,還能“現學現賣”

MMICL支持文本和圖片穿插形式的prompt,用起來就像微信聊天一樣自然。

用正常說話的方式把兩張圖喂給MMICL,就可以分析出它們的相似和不同之處。

除瞭超強的圖像分析能力,MMICL還知道“現學現賣”。

比如我們丟給MMICL一張“我的世界”中像素風格的馬。

由於訓練數據都是真實世界的場景,這種過於抽象的像素風MMICL並不認識。

但我們隻要讓MMICL學習幾個例子,它便能很快地進行類比推理。

下圖中,MMICL分別學習瞭有馬、驢和什麼都沒有這三種場景,然後便正確判斷出瞭更換背景後的像素馬。

除瞭圖片,動態的視頻也難不倒MMICL,不僅是理解每一幀的內容,還能準確地分析出時空關系。

不妨來看一下這場巴西和阿根廷的足球大戰,MMICL準確地分析出瞭兩支隊伍的行動。

針對視頻當中的細節,也可以向MMICL提問,比如巴西球員是怎麼阻擋阿根廷隊員的。

除瞭準確把握視頻中的時空關系,MMICL還支持實時視頻流輸入。

我們可以看到,監控畫面中的人正在摔倒,MMICL檢測到瞭這一異常現象並發出瞭提示,詢問是否需要幫助。

如果把MME榜上感知和認知兩項的前五名放在一張圖裡比較,我們可以看出,MMICL的表現在各個方面都有不俗的成績。

那麼,MMICL是如何做到的,背後又有什麼樣的技術細節呢?

訓練分兩階段完成

MMICL致力於解決視覺語言模型在理解具有多個圖像的復雜多模態輸入方面遇到的問題。

MMICL利用Flan-T5 XXL模型作為骨幹,整個模型的結構和流程如下圖所示:

MMICL使用類似於BLIP2的結構,但是能夠接受交錯的圖文的輸入。

MMICL將圖文平等對待,把處理後的圖文特征,都按照輸入的格式,拼接成圖文交錯的形式輸入到語言模型中進行訓練和推理。

類似於InstructBLIP,MMICL的開發過程是將LLM凍結,訓練Q-former,並在特定數據集上對其進行微調。

MMICL的訓練流程和數據構造如下圖所示:

具體來說,MMICL的訓練一共分成瞭兩個階段:

  • 預訓練階段,使用瞭LAION-400M(參考LLaVA)數據集

  • 多模態in-context tuning,使用瞭自有的MIC(Multi-Model In-Context Learning)數據集

MIC數據集由公開數據集構建而來,上圖展示瞭MIC數據集當中所包含的內容,而MIC數據集還具有這幾個特色:

第一是圖文間建立的顯式指代,MIC在圖文交錯的數據中,插入圖片聲明(image declaration),使用圖片代理(image proxy)token來代理不同的圖片,利用自然語言來建立圖文間的指代關系。

第二是空間,時間或邏輯上互相關聯的多圖數據集,確保瞭MMICL模型能對圖像間的關系有更準確的理解。

第三個特色是示例數據集,類似於讓MMICL“現場學習”的過程,使用多模態的上下文學習來增強MMICL對圖文穿插式的復雜圖文輸入的理解。

MMICL在多個測試數據集上取得的成績超過瞭同樣使用FlanT5XXL的BLIP2和InstructionBLIP。

尤其是對於涉及多張圖的任務,對這種復雜圖文輸入,MMICL表現瞭極大的提升。

研究團隊認為,MMICL解決瞭視覺語言模型中常常存在的語言偏見(language bais)問題是取得優異成績的原因之一。

大多數視覺語言模型在面對大量文本的上下文內容時會忽視視覺內容,而這是回答需要視覺信息的問題時的致命缺陷。

而得益於研究團隊的方法,MMICL成功緩解瞭在視覺語言模型中的這種語言偏見。

對這個多模態大模型感興趣的讀者,可以到GitHub頁面或論文中查看更多詳情。

GitHub頁面:https://github.com/HaozheZhao/MIC論文地址:https://arxiv.org/abs/2309.07915在線demo:http://www.testmmicl.work/

量子位

往期回顧

基礎知識

【CV知識點匯總與解析】|損失函數篇

【CV知識點匯總與解析】|激活函數篇

【CV知識點匯總與解析】| optimizer和學習率篇

【CV知識點匯總與解析】| 正則化篇

【CV知識點匯總與解析】| 參數初始化篇

【CV知識點匯總與解析】| 卷積和池化篇 (超多圖警告)

【CV知識點匯總與解析】| 技術發展篇 (超詳細!!!)

最新論文解析

NeurIPS2022 Spotlight | TANGO:一種基於光照分解實現逼真穩健的文本驅動3D風格化

ECCV2022 Oral | 微軟提出UNICORN,統一文本生成與邊框預測任務

NeurIPS 2022 | VideoMAE:南大&騰訊聯合提出第一個視頻版MAE框架,遮蓋率達到90%

NeurIPS 2022 | 清華大學提出OrdinalCLIP,基於序數提示學習的語言引導有序回歸

SlowFast Network:用於計算機視覺視頻理解的雙模CNN

WACV2022 | 一張圖片隻值五句話嗎?UAB提出圖像-文本匹配語義的新視角!

CVPR2022 | Attention機制是為瞭找最相關的item?中科大團隊反其道而行之!

ECCV2022 Oral | SeqTR:一個簡單而通用的 Visual Grounding網絡

如何訓練用於圖像檢索的Vision Transformer?Facebook研究員解決瞭這個問題!

ICLR22 Workshop | 用兩個模型解決一個任務,意大利學者提出維基百科上的高效檢索模型

See Finer, See More!騰訊&上交提出IVT,越看越精細,進行精細全面的跨模態對比!

MM2022|兼具低級和高級表征,百度提出利用顯式高級語義增強視頻文本檢索

MM2022 | 用StyleGAN進行數據增強,真的太好用瞭

MM2022 | 在特征空間中的多模態數據增強方法

ECCV2022|港中文MM Lab證明Frozen的CLIP 模型是高效視頻學習者

ECCV2022|隻能11%的參數就能優於Swin,微軟提出快速預訓練蒸餾方法TinyViT

CVPR2022|比VinVL快一萬倍!人大提出交互協同的雙流視覺語言預訓練模型COTS,又快又好!

CVPR2022 Oral|通過多尺度token聚合分流自註意力,代碼已開源

CVPR Oral | 谷歌&斯坦福(李飛飛組)提出TIRG,用組合的文本和圖像來進行圖像檢索

赞(0)