22 日凌晨,國際計算機視覺大會 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳論文獲得者。
最佳論文獎來自卡耐基梅隆大學青年學者朱俊彥團隊。論文題目為《Generating Physically Stable and Buildable Brick Structures from Text》。
ICCV 是全球計算機視覺三大頂會之一,每兩年舉辦一次。數據顯示,今年大會共收到了 11239 份有效投稿,程序委員會推薦錄用 2699 篇論文,最終錄用率為 24%,相比上一屆論文數量有大幅增長。
朱俊彥本科就讀于清華大學,現任卡耐基梅隆大學計算機科學學院助理教授,是 Adobe 前研究科學家。主要研究方向為計算機視覺、圖形學、計算攝影和生成模型。
這篇獲獎論文提出了 “磚塊” GPT——BrickGPT,是首個能夠根據文本提示生成物理穩定的相互連接的積木裝配模型的方法。圖源:https://arxiv.org/pdf/2505.05469
高度有效和穩定
用現有方法創建現實世界的物體仍然具有挑戰性。朱俊彥團隊致力于解決生成物理可實現對象的挑戰,目標是開發一種方法,直接從自由格式的文本提示生成磚塊組裝結構,同時確保物理穩定性和可建造性。
團隊推出了 StableText2Brick,這是一個全新的大規模數據集,包含 47,000 多種不同的積木拼裝結構。
為了實現序列和文本理解,研究人員針對磚塊結構生成任務對預訓練的 LLM 進行了微調。為了提高設計的穩定性和可構建性,研究團隊在推理過程中還使用了逐塊剔除采樣和物理感知回滾。
基礎模型可以通過上下文學習生成磚塊結構,凸顯了使用預訓練的 LLM 完成任務的潛力。
位了確保物理穩定性,可以對每個步驟應用穩定性進行分析,并重新采樣可能導致倒塌的磚塊。
但是這種方法效率較為低下,團隊還是建議采用逐塊剔除采樣并結合物理感知回滾的方法,以平衡穩定性和多樣性。
為了解決物理配置問題,模型進一步將物理穩定性驗證納入自回歸推理中。
首先,當模型生成一塊磚塊及其位置時,該磚塊應格式正確,且不位于工作空間之外。其次,確保新添加的磚塊不會與現有結構發生碰撞。
根據評估,團隊的研究方法生成了與給定文本提示對齊的高質量、多樣化且新穎的磚塊結構。在有效性和穩定性方面優于所有基準測試方法以及簡化設置,同時保持了較高的文本相似度。
結語
由于計算資源有限,團隊尚未探索最大的 3D 數據集,僅限于在 21 個類別的網格內生成設計,而最近的 3D 生成方法可以創建更多種類的對象。
其次,方法目前支持一組固定的常用玩具積木。在未來的工作中,研究團隊還計劃擴展積木庫,使其涵蓋更廣泛的尺寸和積木類型,例如斜坡積木和瓷磚積木,從而實現更加多樣化和復雜的設計。
但實驗結果也證明,朱俊彥團隊的方法優于 LLM 骨干模型和一些近期的文本轉 3D 生成方法,是 LLM 研究的一次重大突破。
參考資料:
https://arxiv.org/pdf/2505.05469