Transformer 架構引入了注意力機制,使模型能夠回顧早期輸入,從而優先處理相關的輸入數據。然而,計算成本會隨著序列長度的增加而急劇上升,這限制了基于 Transformer 的模型擴展到超長上下文的能力。
近日,Google 在兩篇新論文 Titans 和 MIRAS 中提出了一種架構和理論藍圖,它結合了循環神經網絡 (RNN) 的速度和 Transformer 的精度。
Titans 是具體的架構(工具),而 MIRAS 是推廣這些方法的理論框架(藍圖)。它們共同推進了測試時記憶的概念,即人工智能模型能夠在運行過程中,無需專門的離線重新訓練,就能通過整合意外信息來維持長期記憶。
MIRAS 框架實現了向實時自適應的重要轉變。該架構并非將信息壓縮成靜態狀態,而是隨著數據流的流入主動學習并更新自身參數。這一關鍵機制使模型能夠即時將新的、具體的細節融入其核心知識中。
泰坦:快速學習新知識
雖然注意力機制擅長精確的短期記憶,但 Titans 引入了一種新型的神經長期記憶模塊。該模塊以深度神經網絡(一個多層感知器 )的形式運行。這種記憶模塊顯著提升了模型的表達能力,使其能夠在不丟失重要上下文的情況下概括大量信息。
值得注意的是,Titans 并非被動地存儲數據,而是主動學習如何識別并保留連接整個輸入數據中各個標記的重要關系和概念主題。
在 Titans 的背景下,當模型檢測到它當前記憶的內容與新輸入告訴它的內容之間存在較大差異,會產生一個“驚喜指標”。
該模型使用這種內部誤差信號,使得 Titans 架構能夠選擇性地僅使用最新穎和打破上下文的信息來更新其長期記憶,從而保持整個過程的快速和高效。
模型還分別使用動量(捕捉相關后續信息)和遺忘(允許模型丟棄不再需要的信息)兩個因素來改進機制。
MIRAS:序列建模的統一視圖
MIRAS 的獨特性在于它看待人工智能建模的方式。它把不同的架構視為解決同一問題的不同途徑:高效地將新信息與舊信息相結合,同時又不遺漏關鍵概念。
MIRAS 通過四個關鍵設計選擇定義了序列模型:
內存架構:存儲信息的結構(例如,向量、矩陣或像 Titans 中的那種深度多層感知器)。
注意力偏差:模型優化的內部學習目標,決定了模型優先考慮的內容。
記憶保持閘門:記憶調節器。MIRAS 將“遺忘機制”重新解釋為特定的調節形式,以平衡新知識的學習和對過去知識的保留。
內存算法:用于更新內存的優化算法。
利用 MIRAS,研究人員創建了三個特定的無注意力模型:
YAAD:采用更溫和的數學懲罰( Huber 損失 )來處理錯誤,因此不會對個別問題反應過度。這使得模型在輸入數據混亂或不一致的情況下也更加穩健。
MONETA:該模型探索了使用更復雜、更嚴格的數學懲罰方法。
MEMORA:該模型致力于通過強制其內存像嚴格的概率映射一樣運行,來實現最佳的內存穩定性。通過這種約束,它確保每次更新內存狀態時,變化都得到控制和平衡。但是,所有成功的現有序列模型都依賴均方誤差 (MSE) 或點積相似度來確定其偏差和保留率。這種依賴性可能使模型對異常值敏感,并限制其表達能力。
實驗結果
在標準語言建模數據集和零樣本推理任務中,模型始終表現出更高的準確率。
消融實驗表明,比較相同大小但深度不同的長期記憶模塊時,記憶深度更深的模塊在語言建模中始終表現出更低的困惑度。此外,它們還展現出更好的擴展性,即使序列長度顯著增加,也能保持性能。
在要求對分布在極長文檔中的事實進行推理的 BABILong 基準測試中,Titans 的性能優于所有基線模型,包括像 GPT-4 這樣規模龐大的模型,盡管其參數量要少得多。Titans 還進一步證明了其能夠有效地擴展到超過 200 萬個 token 的上下文窗口大小。相關人員表示,這項研究為新一代序列模型打開了大門,這些模型將循環神經網絡的高效性與長上下文人工智能時代所需的表達能力相結合。
參考資料:
https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/
·