短視頻分享平臺憑借其優質內容吸引了大量用戶。用戶滿意度可通過多種行為體現,一類是用戶顯性互動,例如點贊、分享、評論等;另一類是用戶隱性反饋,例如觀看時長、長時間觀看等。
其中,排名模塊是推薦系統中最關鍵的組成部分,它最終決定向用戶展示哪些視頻。
業界廣泛采用的模塊排名范式是一個兩階段過程。第一階段利用大規模模型從多個維度評估用戶滿意度。第二階段將這些多維度目標整合為一個標量值,用于最終排名。
盡管這些公式具有實施成本低、調整靈活、可解釋性強等優點,但在個性化和模擬復雜的非線性交互方面存在顯著局限性。
為了解決該局限性,快手策略算法團隊提出了一種端到端的多目標集成排序框架(EMER)。引入了“相對優勢滿意度”的概念,這是一種個性化的用戶偏好比較度量,可以通過成對排序損失來實現這一度量。此外還引入了一個基于多維 AUC 的輔助損失,從而約束模型進行“自進化”。
EMER 框架
EMER 基于特定的樣本組織方案,通過指定的特征工程方法和基于 Transformer 的模型架構,突出比較關系信息。
訓練數據主要關注兩個關鍵目標:
克服僅從已觀察項目學習時固有的暴露偏差;
便于模型進行直接的項目比較
為了實現這些目標,團隊組織了單個用戶請求級別的訓練樣本,形成一個整合的訓練樣本。
為了增強 EMER 對比較關系進行建模的能力,團隊還設計了特征來捕捉每個項目在候選集中的相對位置。引入了不同 Pxtr 的歸一化排名,以提供明確的位置信息。
EMER 采用基于 Transformer 的網絡來明確捕捉候選項目之間的復雜關系。這使得模型能夠衡量每個項目對其他項目的影響,從而更好地理解它們在集合中的相對位置。
EMER 引入了一個名為“相對優勢滿意度”的標簽,該標簽基于推薦請求中可比的曝光后反饋,并從多目標優化的角度提出了一種解決方案,以同時提升模型在用戶滿意度多個維度上的排名能力.
對于多目標優化問題,及時找到最佳解決方案至關重要。EMER 提出了一種“自演化”優化方案,該方案采用“優勢評估器”來動態地計算損失函數的權重。
有效排序
EMER 方法在大多數指標上均顯著優于基線方法。LT7 指標上均提升超過 0.10%,在 APP 停留時間指標上均提升超過 1.0%。這些在工業推薦系統中是顯著的提升,證明了 EMER 方法在視頻排序任務中的有效性。
除此之外,EMER 的多目標損失分布比 EMER-NoEvolve 更加均勻和集中,且損失值更低。這清楚地證明了自我演化方案對于引導模型的學習方向以及確保其長期穩健性和穩定性至關重要。
目前,EMER 框架已成功部署在快手的主信息流中,顯著提升了用戶參與度和系統整體性能,證明了 EMER 在實際工業環境中的實用性和可擴展性。
參考資料:
https://arxiv.org/pdf/2508.05093