在英偉達GTC大會期間,英偉達(NVIDIA)首席科學家兼研究高級副總裁Bill Dally、英偉達AI研究副總裁Sanja Fidler與智東西等全球媒體進行交流,分享了NVIDIA Research的進展,并現場演示英偉達最新文生3D模型LATTE3D。
LATTE3D模型就像一臺虛擬3D打印機。只需在文本框輸入文字描述,在單張消費級GPU上運行,不到1秒時間,該模型就能按要求生成對應的物體和動物的幾個不同的3D形狀,供創建者選擇,再在幾分鐘內優化成更高的質量。而3D形狀可以隨意放大、旋轉,360度無死角。
“一年前,AI模型需要1小時才能生成這種質量的3D視覺效果,而目前的技術水平大約是10到12秒。”Sanja Fidler說。
現場演示了讓LATTE3D生成小蛋糕、豬豬氣球、踩滑板且戴著高帽子的針織鴨、踩著滑雪板并戴著聚會帽的小兔子。全程都很絲滑迅速,接近實時生成。生成的3D素材能直接導入圖形軟件應用程序或平臺中,比如Omniverse平臺。
對于開發視頻游戲、廣告活動、設計項目或虛擬機器人訓練場地等應用來說,這都是個看起來很有吸引力的3D素材創建工具。
Bill Dally說,NVIDIA Research為未來的成功播下種子,既有登月項目,又有很多研究小組,研究方向包括GPU存儲系統、編程系統、網絡、架構、超大規模集成電路(VLSI)、圖形、感知與學習等。這些研究塑造了英偉達的與眾不同。
據Bill Dally分享,NVIDIA Research團隊有三個原則:1、希望以最少的努力獲得最大的回報;2、提高影響力,而不是出版物記錄;3、希望與產品保持緊密的聯系。
NVIDIA Research由全球數百名科學家和工程師組成,專注于AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等主題。很多源自研究院的技術,如OptiX、CuDNN、光線追蹤算法和硬件、Volta SM、Flip-Flops、NVSwitch、DLSS等,都成功轉化成商業用途。
其研究團隊分布在世界各地。面向3D生成式AI模型的新模型LATTE3D便是由英偉達位于加拿大多倫多的AI實驗室團隊研發的。該團隊還研發過GANverse3D、GET3D、Magic3D、ASE、GameGAN、VideoLDM等模型。
LATTE3D使用英偉達A100 GPU進行訓練,模型先生成神經3D形狀,然后用圖像擴散模型作為老師來對渲染圖像進行反饋。除了3D形狀外,該模型還接受了使用ChatGPT生成的各種文本提示詞的訓練,以提高模型處理用戶描述特定3D對象的各種短語的能力。比如,它能理解以各種犬類為特征的提示應該都生成類似狗的形狀。
當研究人員在特定的動物和日常用品數據集上訓練LATTE3D時,開發人員可使用相同的模型架構在其他數據類型上訓練AI。
例如,如果在3D植物數據集上進行訓練,LATTE3D可幫助景觀設計師在與客戶進行頭腦風暴時快速填充樹木,開花灌木和多肉植物的花園渲染。如果對家用物品進行訓練,該模型可以生成物品來填充家庭場景的3D模擬,開發人員可以用它來訓練個人助理機器人,然后再在現實世界中進行測試和部署。