人形機器人一般是指具有與人類類似的身體結構和運動方式(雙足行走、雙手協作等)的智能機器人。人形機器人既需要極強的運動控制能力,也需要具備非常強的感知計算能力。人形機器人更能適應于各類現實生活場景,使得機器人能從“專用”轉向“通用”,以此形成規模效應和降低成本。
隨著人工智能技術不斷發展,通過結合人工智能、機械工程和傳感技術,人形機器人可以模仿人類的動作和行為,執行各種任務。
NVIDIA 機器人與邊緣計算副總裁 Deepu Talla 表示,技術進步和仿真環境的改進是激發人形機器人即將爆發的兩大源動力。
生成式人工智能和大語言模型技術的進步,打破了數字應用和物理應用間的界限,而仿真環境的改進,使得機器人研發不再受限于物理環境,從而使得機器人技術獲得了跨越式發展。
為了推動機器人從“專用”走向“通用”,NVIDIA以其在計算領域突破性創新成果為基礎,面向機器人領域推出了集合訓練、仿真和計算的“三臺計算機”解決方案。
第一臺計算機用于訓練:這是用于訓練AI模型的系統。訓練通常在云端、數據中心或像NVIDIA DGX這樣的強大系統上進行,這是構建機器人“大腦”的關鍵步驟。
第二臺計算機用于仿真:一旦訓練完成,就需要進行測試。以往的標準是物理測試,但這種方式既慢又昂貴,還存在風險。更好的解決方案是引入一個“仿真層”,即“數字孿生”,在虛擬環境中完成測試。仿真允許在大規模、快速且安全的條件下運行數千種場景測試,無需受到真實世界時間或成本的限制。
第三臺計算機用于部署:第三種系統安裝在機器人內部,它就是操作物理機器人的“大腦”。對NVIDIA來說,這可以通過像Jetson或AGX這樣的系統來實現。
Deepu Talla 表示,通過整合上述三個系統,在機器人正式部署之前,通過仿真進行成千上萬次測試,可以顯著縮短機器人的開發時間,加速整個流程。
NVIDIA,并不直接制造機器人,而是通過構建一個包含三種計算系統以及相關軟件工具和工作流程的平臺,幫助機器人專家、研究人員、機械工程師和測試人員更輕松地開發機器人解決方案。
與ChatGPT大模型可以通過數據訓練獲得進步不同的是,應用于機器人的大模型還無法獲得執行各種動作的海量數據。目前僅僅通過使用Apple Vision Pro或動作捕捉套裝來記錄人類動作的示范,而這些方法雖能提供有用的數據,但規模太小,無法完全滿足機器人模型的訓練需求。沒有足夠的數據,機器人模型無法進行有效的訓練、測試或部署。這使得數據的收集和生成成為解決機器人開發挑戰的關鍵第一步。
為了解決這一問題,合成數據生成變得至關重要。
銀河通用創始人、CTO王鶴表示,通過合成數據,可以生成特定動作(例如抓取物體)的無數種變化,或者構建完整的虛擬環境。通過將少量的現實世界數據與使用像NVIDIA Cosmos這樣的工具生成的大規模合成數據相結合,可以克服機器人技術中數據稀缺的問題,解決機器人領域的基礎數據挑戰。
NVIDIA Cosmos是一個“世界基礎模型”,可以生成高度逼真、類似視頻游戲的環境,用于機器人訓練。在這里,“世界”指的并不是地球,而是機器人交互的環境,例如機器人操作的房間內可見區域。通過采用這種結合現實與合成數據的創新工作流,NVIDIA正為機器人領域的重大進步鋪平道路。