預訓練的大型語言模型(LLMs)因其在處理各種自然語言任務上的有效性而受到瞭廣泛的歡迎。最近,人們已經認識到它們在使用自然語言指令指導自主網絡導航方面的潛力。
然而,現有的網絡導航模型面臨著許多挑戰。這些包括缺乏預定義的動作空間,解釋大量HTML文檔的復雜性,以及缺乏關於HTML的領域特定知識。
為瞭解決上述問題,來自Google DeepMind和東京大學的研究團隊在一篇新的論文《具有規劃、長上下文理解和程序合成的真實世界WebAgent》中,提出瞭WebAgent,這是一個由LLMs驅動的真實世界網絡導航代理,可以根據自然語言指令處理真實網站任務。
該團隊總結瞭他們的主要貢獻如下:
- 我們介紹瞭WebAgent,這是兩個LLMs的集成,用於真實世界的網絡導航。領域專傢語言模型處理規劃和HTML摘要,而通用語言模型生成可執行程序。
- 我們通過采用局部-全局註意力和在大規模HTML語料庫上進行長跨度去噪預訓練,提出瞭新的HTML特定語言模型HTML-T5。
- HTML-T5顯著提高瞭在真實網站中的成功率,超過50%,並在MiniWoB++中比先前的LLM代理提高瞭14.9%。
圖2:WebAgent是LLMs的組合:HTML-T5用於規劃和總結,Flan-U-PaLM用於基於實證的程序合成。WebAgent可以處理真實世界任務中的瓶頸:開放領域的動作空間、復雜的自然語言指令和長HTML頁面。
WebAgent由HTML-T5用於規劃和總結以及Flan-U-PaLM用於實證程序合成之間的交互組成。
圖4:HTML-T5由局部和全局註意力機制[3,22]以及在大規模HTML語料庫上進行長跨度腐敗的混合去噪目標[66]組成。局部和全局註意力機制適用於HTML文檔的層次樹結構。因為短的平均跨度長度(例如,μ = 3),通常在先前的工作[54]中使用,隻掩蓋瞭不太有意義的塊,采用更長的跨度長度(例如,μ = 8)有助於預訓練的語言模型更好地捕捉HTML的語法和語義。我們還註意到,這個圖描述瞭概念,HTML中的元素並不總是在註意力頭中清晰地被捕捉到。
具體來說,HTML-T5是一個預訓練的編碼器-解碼器語言模型,它包括1)局部和全局註意力機制,可以更好地捕捉HTML的層次結構;2)一種混合的去噪目標,將HTML的歸納偏差融入其中,以更好地理解HTML文檔的語法和語義。
Flan-U-PaLM是一個解碼器,它消耗給定的規范示例以生成程序,下一個子指令,以及從HTML-T5中提取的HTML片段,通過Selenium WebDriver(一種瀏覽器自動化庫)解碼出可執行的Python程序。因此,WebAgent不僅可以根據自然語言指令生成代碼,還可以解釋HTML元素的語義和功能。
表4:MiniWoB++的56個任務的平均成功率。我們使用瞭12K的演示[42],並將HTML-T5與監督微調基線[24, 28]進行比較。HTML-T5-XL顯著優於先前最好的方法WebN-T5-XL,提高瞭14.9%,HTML去噪比指令調優更能提高成功率。我們還使用347K的專傢追蹤[19]對HTML-T5進行瞭微調,即使隻有3B的參數,其表現也優於Flan-T5-XXL(11B參數)。詳細結果請參見附錄H。
在他們的實證研究中,團隊對WebAgent在真實世界的網絡導航任務上進行瞭測試,包括規劃、總結和基於實證的程序合成。WebAgent在網絡導航上達到瞭70%的成功率,明顯優於單一LLM方法超過50%,並且在MiniWoB網絡導航基準測試上比先前的最先進方法高出14.9%的成功率。
總的來說,這項工作展示瞭所提出的WebAgent在自主網絡導航方面的潛力,團隊希望他們的工作能為自主網絡代理系統的實際部署貢獻一份力量。
論文《具有規劃、長上下文理解和程序合成的真實世界WebAgent》下載請點擊鏈接