Apple 推出了 SlowFast-LLaVA-1.5,這是一個新的視頻大語言模型 (Video-LLM) 系列,旨在高效理解長格式視頻。蘋果在其研究論文中解釋說,大多數現有的視頻法學碩士在分析擴展視頻內容時都面臨著高計算成本和過度令牌使用的問題,這限制了它們的擴展能力。 SlowFast-LLaVA-1.5 通過引入令牌高效框架來解決這個問題,該框架減少了表示視頻所需的令牌數量,同時保持了準確性。
令牌效率至關重要,因為視頻中的每一幀都必須先轉換為令牌,然後 LLM 才能處理它。對於長視頻,令牌的數量很快就會變得難以管理,從而增加成本並降低性能。蘋果的方法壓縮視頻數據,以便在不丟失重要上下文的情況下使用更少的標記。通過將其與雙路徑架構相結合,其中“慢”路徑捕獲長期模式,“快”路徑專注於短期細節,該模型可以平衡理解與效率。這使得它能夠跟踪整個故事情節和跨擴展序列的細粒度動作。

該系統還具有高度可擴展性,這意味著它可以擴展以處理更長的視頻和更大的數據集,而不會佔用過多的計算資源。隨著輸入長度的增加,傳統模型變得不切實際,但蘋果的設計確保了從短片到多小時鏡頭的擴展仍然可行。這使得 SlowFast-LLaVA-1.5 適用於視頻問答、時間推理、摘要和跨長視頻檔案的內容檢索等任務。
在基準測試中,Apple 報告稱,該模型在 Video-MME 和 LongVideoBench 等數據集上取得了出色的結果,與之前的方法相比,效率和理解力都得到了提高。該研究還引入了多種模型大小,包括 1.5B、7B 和 13B 參數版本,這些版本經過指令調整以遵循自然語言提示。這使得系統能夠生成有關複雜視頻內容的詳細響應,使其適用於教育視頻分析、會議摘要以及創建字幕或可搜索文字記錄的輔助工具。
蘋果強調,代幣高效和可擴展的設計不僅關乎研究新穎性,而且關乎實用性。通過降低計算要求並擴展能力,該模型為將長格式視頻理解集成到實際產品中鋪平了道路。隨著視頻繼續在娛樂、教育和專業交流領域佔據主導地位,Apple 的長格式視頻法學碩士代表了朝著使先進的多模式人工智能可用且易於訪問的方向邁出了重要一步。
查看全文這裡。
