【BrainyBytes】人形機器人初探,波士頓動力 Atlas 與特斯拉 Optimus

2023 年 5 月,Elon Musk 在 Tesla 的股東大會上,除瞭提到偉大計劃 Part3 以外,還釋出瞭它的人形機器人 Optimus 的最新進展。

相比去年發佈會上還需要攙扶才能運作的 Optimus,這次視頻裡的 Optimus 們真真是好瞭不少。除瞭能做到控制力道到不打碎雞蛋,Optimus 還能夠相對細膩地控制自己的手指,抓起各種小東西,以及在辦公室裡幫忙整理一下雜物之類的。

馬斯克說:

話雖如此,但也很顯然,視頻裡的 Optimus 離無論是馬斯克口中的成熟還是我們的預期都還差瞭十萬八千裡,甚至不如幾年前波士頓動力的 Atlas,所以我們應該期待 Tesla 嗎?還是說,人形機器人本身就是個偽需求帶來的命題,從長遠的視角來看沒有什麼意義?

人形機器人的意義

說到機器人,也許大多數人腦海裡冒出的都是終結者T800,I,Robot 中的機器人,和變形金剛,最次也得是軟銀所開發的 Nao 一樣的東西。

然而,其實在現實生活中,能稱得上有用的機器人和以上的形象都毫無關系。2021年6月開始實施的國標 GB/T 39405-2020 機器人分類中列舉的 90% 機器人都是以下的形象。

畢竟這些專用場景下的機器人是在產生真實的利潤,而擁有著人類身體形狀的機器人們,第一,離人類的任何表現都有較大差距,第二,好像並沒有什麼場景一定需要一個人類身體的機器人,他們隻能在所謂的教育場景下扮演著玩具的角色。

所以當下有不少觀點認為,對於人形機器人的追求是一種科幻片看多瞭的執著。

但是我個人而言,倒是不這麼認為,把機器人做成有手有腳有胯部的人形是非常符合直覺的,這有幾個意義:

  • 通用性:

人類社會發展至今,基本上所有的工具都是為人類使用而設計的,能夠解決機器人在多個場景下都可以工作的問題,當然需要直接使用人類現有的工具,而不是重新為機器人適配一套新工具。

無論是需要手指的剪刀、錘子、電鉆,還是需要雙足的樓梯、小路、駕駛室的門檻,甚至是需要人類高度的桌子、工具櫃,似乎直接使用人類軀體的形狀都會更適合一些。

  • 感性因素:

相比一個八隻腳的機械蜘蛛或者一根有六個機械臂的移動機器人,長著雙腿雙手的機器人似乎更容易被接受一些,特別是服務場景或者傢庭場景下,如果人類需要和機器人進行高頻的交互,能夠通過表情、肢體和語言表現出感情的機器人(即使我們知道那是假的)似乎也更容易令人接受一些。當然瞭,目前的技術會造成的恐怖谷效應是我們還需要努力解決的。

支持人形機器人的樂觀者所描繪的未來場景是,未來社會中的大部分重體力工作、重復而煩人的工作、甚至傢庭中的瑣碎傢務都會由人形機器人來承擔。

人形機器人可以類比成現在的汽車,有在工廠工作的卡車、在路上做公共服務的公交、的士、也有很多私人擁有的私傢車。

造一個好機器人需要什麼能力

有自主能力的機器人在完成無論多復雜的任務時,拆分到最小的行動單元就是在執行這樣一個循環:

    • Sense(感知):目前周圍的環境、客觀情況等;
    • Think(思考):根據所觀察到的情況和目標任務,思考下一步應該做什麼來完成任務;
    • Act(行動):驅動機體來去實際完成任務;

那麼在這一整個過程中,就會出現這麼幾種硬性要求:

轉化能力

機器需要將現實世界的情況轉化成能夠被機器理解的信號,我們可以理解為是用攝像頭、傳感器捕捉現實世界的信號,再通過虛擬世界建模的方式,讓機器理解現在所處的環境和周圍的客體。

這涉及瞭機器視覺、計算機圖形學等,當下最需求這一能力、也能夠代表人類的當下頂尖水平的行業關鍵詞是:自動駕駛

學習和決策能力

顯而易見的,如果使用硬編碼,也就是直接地通過代碼將某一種解決方法應用起來,一定是不行的,因為在大多數復雜問題中人是不可能窮盡所有的邊界條件的,即使可以成本也太高瞭。

這時候就需要機器擁有自主的推理能力和學習能力,遇到任何問題能夠通過以往的經驗或者某一種原則來解決,並且成功或者失敗之後要能夠反思、學習,未來可以解決類似的甚至更復雜的問題。

這涉及瞭機器學習中的深度學習、強化學習等,當下能夠代表人類最頂尖水平的行業關鍵詞是:互聯網人工智能

執行能力

知道怎麼做,但也不一定做的到,人類自己尚且如此,更別說機器人瞭。現實的物理世界存在太多的不確定性,雪地或者運動狀況下的對於平衡感、手眼協調、反應力、細膩發力等等的要求,人類自身已經做的太好瞭,但對於機器來說,單單是握住一個雞蛋不捏爆且不掉落就是個很大的難題。

機器需要快速且精準地控制機械的力量和發力方式,並且能夠以較低的能耗持續運行。

這涉及瞭機械工程學等,當下能代表人類最頂尖水平的行業關鍵詞是:機械制造國防軍工

當然,除此之外,還有提升機器人交互能力的自然語言處理、幫助機器人更好融入人類的認知科學等等等等,不過這裡限於篇幅就不展開瞭。

說到這裡,其實不難發現,把這些關鍵詞混雜起來,有兩傢企業脫穎而出瞭:電動汽車的代表特斯拉,和底蘊深厚、股東先後包括谷歌、軟銀和現代的波士頓動力。

人形機器人的代表公司的確就是這兩傢,接下來我會以這兩傢公司在技術、思路上的異同來探討一下,我們走到哪裡瞭、以及前面還有多遠。

波士頓動力和特斯拉

波士頓動力和特斯拉是兩傢風格截然不同的公司,這種不同在人形機器人上更是展現的淋漓盡致。

這個視頻大傢應該都看過,波士頓動力的機器人展現出的是一種動感和活力,給人感覺非常的有勁兒,它能夠做出非常多令人驚嘆的動作,跳躍臺階、後空翻、平衡木行走等等。

波士頓動力成立於 1992 年,雖然一開始並不是做機器人的,但很快就開始研發四足機器狗再到後來研發人形機器人 Atlas,現在的 Atlas 身上背負有波士頓動力近 30 年的機械控制的積累。15 年的時候我在波士頓讀書,室友是 Robotics 的 PhD,有一天他去看瞭波士頓動力的展,那天晚上回來 Dota 都不打瞭,隻撂下一句“人傢都這麼牛逼瞭我還研究個屁啊”就回房睡覺瞭。

而特斯拉的機器人展現出的是一種說好聽點叫謹慎和理智,說難聽點叫老態龍鐘,它隻能做一些例如抓起桌上東西的“簡單”事情,在平地走路都晃晃悠悠的,連我傢隔壁 95 歲的奶奶都比它更靈活。

但考慮到特斯拉從立項到最新的 Optimus 發佈滿打滿算也就不到兩年時間,倒也是情有可原。

不過,菜就是菜,特斯拉的機器人配和波士頓動力放在一起比較嗎?或者說,運動能力就代表著機器人的一切嗎?

我認為不能這麼簡單粗暴地下定論,雖然都是人形機器人,但兩傢企業目前的產品顯然不是在同一個賽道上競爭

液壓 vs. 電機

波士頓動力的 Atlas 身高 1.5 米,體重 89 公斤,液壓驅動全身 28 個關節,身上背著一個 3.7 kWh 的電池組,續航一小時。

液壓驅動系統的工作原理是以壓縮機油來驅動執行機構進行工作,可以看到 Atlas 的腰上有兩根黑黑的管子,那個就是腿部關節和背著的油箱和液壓泵連接所用的管路。

液壓驅動的輸出力和功率很大,能構成伺服機構,常用於大型機器人關節的驅動,大多用於要求輸出力較大的場合。

除瞭力量大以外,因為液體的“彈性”,使用液壓驅動系統也會讓動作的發力受力更加平滑,如果是用電機驅動,這個後空翻落地應該直接把電機給炸瞭。

可擴展性強,執行端可以遠離動力源,也就是液壓泵,而且隻需要一個液壓泵就可以驅動多個執行器,液體的勢能可以通過管道,輕松地傳導到多個遠端。

然而液壓驅動也有缺點:

  • 造價貴,由伺服閥、執行器、液壓管路等構成的液壓系統對液壓元件的精度質量要求非常高,所以很多元件不得不特制,比如用 3D 打印嵌入四肢結構件中。據說一臺造價要超過 200 萬美元。
  • 維護貴,由於流體流動阻力,溫度變化,雜質,泄漏等的影響,工件的穩定性和定位精度不準確,對作業環境有要求,以及易發生泄漏等問題

在電驅動技術成熟之前,液壓驅動是最廣泛使用的驅動方法。

再說說電池,3.7 kWh 和 1 小時續航大概是什麼概念?

我查瞭一下小牛電動自行車,它的旗艦款 NQi 配備的電池是 2.04 kWh 的電池,大概能騎個5個多小時 130 km,而據知情人士透露,充滿電需要 4-6 小時。

換到 Atlas 上來,差不多可以理解是體力勞動半小時、充電大半天的節奏。

再看特斯拉的 Optimus,身高 1.72,體重 57 kg,電機驅動全身 40 個關節,配備 2.3 kWh 的電池組,能夠提供超過 5 小時的續航。

其實不僅僅是特斯拉,OpenAI 所投資的 1x、小米研發的鐵大等大部分人形機器人都是使用的電機驅動。

特斯拉針對 Optimus 還專門開發瞭一套電機,其中最強的可以直接拉起半噸重的鋼琴。相比液壓驅動,技術已經走向成熟的電機驅動優點有很多:

1. 高精度和高控制性:電機驅動系統具有較高的精度和控制性能,可以實現精確的位置和速度控制,讓機械臂更容易做一些細膩手活的事情。

2. 能量利用率高:也就是系統能效較高,能夠提供高效的能量轉換和利用,大白話講也就是更省電。

3. 反應快:電機到減速對應的時間短,一般在幾十毫秒之間

除此之外還有更環保、更容易維護、更容易編程等等,當然瞭,缺點也有:

最主要的就是功率受限,無論是掃地機等小機器人所使用的步進電機,還是大機械臂們使用的直流或者交流伺服電機,因為功率受限於電源的容量和系統的電路設計,不適用於大多數要求大功率和大負載的場景。

運動 vs. 精細

以上就是 Optimus 和 Atlas 在技術上最大的區別,它們也反映在瞭產品的追求和表達上:

Atlas 的官網上關於 Atlas 有 5 個視頻,展現的全都是 Atlas 的快速運動,在各種各樣的環境下攀爬、跳躍、奔跑。將極致的機械控制集成到一臺人形機器人上之後,運動也確實是 Atlas 的最好表達。

而反觀 Optimus,在首次亮相時展現最多的是它的十根手指,它能夠精細地抓起一些細碎的東西,也能夠比出一個愛心,是多個關節的靈活度讓它可以去做這樣精細的操作。因為 Optimus 的使命是走進千傢萬戶,而人類目前使用最多的工具就是自己的雙手,機器人的精細程度決定瞭機器人能夠幫助人類的程度。

總結來說,

Atlas 技術選型所帶來的能力強伴隨著高成本和不穩定性,它能扮演的是一個實驗室產物的角色,我相信即使已經買單瞭的那些頂尖的不差錢的大客戶,也都是把眼光放在更遠的未來,然後和波士頓一起在探索場景中。就目前而言,Atlas 的目標客戶是大 B 端或者 G 端們,波士頓動力可以為他們提供一個昂貴的特種兵。

Optimus 技術選型則是瞄準更經濟更實惠,它扮演著一個民用機的初代產品角色,雖然整體效果和技術沉淀都不如特種兵們,但更便宜、更貼合普通人使用場景是它的使命。

產品觀

除瞭技術選型和切入角度上的不同,我認為更深層次的不同來自於這兩傢企業代表的是兩種不同的產品觀,甚至在不遠的將來我更看好特斯拉一些。

波士頓動力研發思路可以用一個詞來概括,“鉆研”,那些看起來大開大合的動作背後是長期對於人類的平衡感、發力方式、手眼協調等細膩而又困難問題的鉆研。

在 Lex Fridman 的一檔談話播客節目中,波士頓動力 CEO Robert Playter 聊到瞭幾個事情都非常反映波士頓動力的產品研發哲學。

一個是為什麼波士頓動力會去讓機器人後空翻、走獨木橋這些看起來好像是在炫技但沒有太大用處的事情,Robert 說他們隻是是想要解決那些難的問題。比如曾經在研發四足機器人 Big Dog 之前,他們就嘗試研發瞭純粹以速度為目標的機器狗、純粹以負重為目標的機器狗,當探索瞭各個問題的能力極限之後,做出一個能力更綜合的機器就沒有那麼困難瞭。

另一個是當被問到為什麼會和 Google 分道揚鑣,Robert 說當時和 Google CEO Larry Page 其實進行過非常多的交流,Larry 希望波士頓動力將降低成本為重要目標,能夠讓人形機器人走進普通消費者的傢裡,通過所謂的“Toothbrush Test”,而 Robert 的哲學是解決最難的問題,所以最後谷歌出售瞭波士頓動力。

而特斯拉的研發哲學則是另一個詞,“粗糙”,這裡的粗糙並非粗制濫造的貶義,而是一種類似“用錘子做哲學”的大巧若拙。

在 Optimus 第一次亮相時,Elon Musk 就表達瞭未來要量產人形機器人並讓它們可以以低於 3 萬美金的價格走進千傢萬戶的願景,而且這個表示未來就在幾年後。

那麼瞄準著這個目標,直接張開腿狂奔就好瞭,先到瞭那裡再說。就如同 Space X 做火箭時會使用看起來一點也不高大上的不銹鋼,我相信 Optimus 也是在使用類似的思路做研發。

做一個人形機器人需要什麼?

感知?好,汽車那邊的自動駕駛給你改吧改吧上瞭;

推理?好,人工智能團隊在搞的機器學習、GPT 打包一下看哪個能用;

執行?好,生產線上的電機和機械你們針對性改造一下給我復用上去。

先用我們能用的最好的技術和最大的努力,把東西給我做出來、成本降下來、用戶場景切進去,細節優化的事情等到這一整套邏輯理順瞭之後再說。

這個類似於互聯網產品打法的快糙猛瞬間就可以打破曾經的行業慣例,以一個強悍的攪局者的身份闖進所有人的視線。


由於文章篇幅的原因,這一期的視頻就到這裡。寫稿的時候我本來是想著一次性把人形機器人全部給寫完,從圖形視覺、到機械工程、再到重點的大語言模型如何結合人形機器人,還有目前人形機器人的難點、成本構成、行業格局等等。

結果在做波士頓動力和特斯拉對比的時候就開始洋洋灑灑有點收不住瞭,實在是非常有意思,抬頭一看寫瞭快 6000 字瞭,Optimus 從特斯拉繼承的最強項自動駕駛、人工智能都還沒開始寫,趕緊暫且打住。

這一期就當作人形機器人的導論,以兩傢重點公司為錨,蜻蜓點水地俯瞰一下人形機器人的發展現狀,下一期會做一下重點話題,如果語言大模型和人形機器人結合,能夠擦出什麼火花,我們可以期待些什麼。

赞(0)