從可靈到 Gemini，AI 視頻集體告別“抽卡模式”：導演模型要火？

2026-06-05 17:04

視頻生成終于不再碰運氣了。

抽卡時代，要過去了。

過去一年多，我們對 AI 視頻的體感其實可以用兩個字概括：抽卡。輸入一段 prompt，點下生成，盯著進度條等模型吐出幾秒鐘的畫面，出來好看就留下，不好看就改改詞再來一發(fā)。它確實能產(chǎn)出驚艷的片段，可它給創(chuàng)作者的，從來不是一段能接著干活的素材，而是一張抽到了就走、抽不到就重抽的卡。

抽卡最難受的地方，其實不是畫面不夠真，而是不可控。你要的是一個九分的成片，模型給你的是十個各有七八分卻彼此對不上的片段，你沒法跟它商量「這個鏡頭別動，只把人物的動作換一下」，能做的只有重新?lián)u一次骰子，賭下一發(fā)更好。

但這套玩法，最近開始有變化了。這一兩個月里，幾款新視頻模型幾乎前后腳出現(xiàn)，產(chǎn)品形態(tài)、技術路線、面向的市場都不一樣，可它們釋放出來的信號卻出奇地一致，競爭的重點不再是誰能一次性生成一段更好看的視頻，而是誰生成出來的東西能被持續(xù)地修改、控制和復用。換句話說，AI 視頻正在從一個出片機器，變成一套生產(chǎn)工具。

截屏2026-06-04 17.12.16.png

（圖源：Google）

問題也就來了，AI 視頻走到這一步，創(chuàng)作者的核心競爭力，會不會從剪輯，變成一種更接近導演的東西，畢竟我們已經(jīng)不用再去“賭”視頻生成的內(nèi)容了，那么更好地表達與鏡頭設計，會不會才是未來的 AI 視頻創(chuàng)作重點？

不能二次編輯的視頻模型不是好AI

AI 視頻「能編輯」最近熱度最高的，可能是谷歌和 Runway 這兩家。

Runway 端出來的是 Aleph 2.0，它主打的能力是基于原視頻語境去做修改。說白了，它不再把每次生成都當成一張白紙，而是認得你手上這段素材里有什么，能在理解原片的前提下做局部改動，而不是動一下就推倒重來。谷歌這邊是 Gemini Omni，走的是另一條路，主打對話式的繼續(xù)編輯，你可以像跟人聊天一樣一句句往下提要求，讓模型在上一版的基礎上接著改，而不是每提一個新需求就從頭再搖一次。

（圖源：Runway ）

比如我們在 Gemini 上要求它生成一段一只白色陶瓷杯放在木桌上，鏡頭緩慢推進。杯子旁邊有一本筆記本和一支黑色鋼筆，自然日光，真實手機拍攝感，背景是普通工作室的廣告質感視頻，在第一輪里 Gemini 生的效果就已經(jīng)很讓人滿意。

截屏2026-06-04 14.53.41.png

（圖源：雷科技制圖）

Gemini 生成了一段白色陶瓷杯、筆記本、黑色鋼筆放在木桌上的空鏡視頻，畫面主體明確，有白色陶瓷杯、筆記本、鋼筆、木桌，鏡頭從中遠景緩慢推近到近景，很符合我們的需求。但它看起來并不像一段廣告片。

（圖源：雷科技制圖）

于是我們直接讓 Gemini 基于這段素材，讓畫面更像咖啡品牌廣告片，比如給杯中咖啡增加細微熱氣，在杯壁加入柔和高光等等。

（圖源：雷科技制圖）

不難看出，杯子、鋼筆、筆記本，甚至背后的場景都沒有變，變得是什么呢？是咖啡出現(xiàn)的時間、是運鏡的手法，是熱氣縈繞的效果。

這恰好就是 AI 視頻從生成走向編輯的中間狀態(tài)，過去是寫一句提示詞等模型出片，現(xiàn)在變成了先生成一條基礎素材，再告訴模型哪里還不夠好，創(chuàng)作者開始像導演一樣給修改方向，只是模型還沒法像剪輯軟件那樣精確服從。它不再只是抽卡，但也還沒長成真正的后期工具。

Gemini 這種對話式的改法只是其中一條路。國內(nèi)的可靈和 Seedance 2.0，則在把「能改」這件事往更系統(tǒng)的方向推，只是各自挑的切口不太一樣。

可靈 O1 的打法，是把一整套活兒收進一個引擎。生成、修改、參考、風格重繪、鏡頭延展，這些過去要么做不到、要么得在好幾個工具之間來回倒騰的事，它想讓你在一個地方就從頭做到尾。這個思路聰明在，它沒把自己當成一個單點功能很強的生成器，而是想做成一張創(chuàng)作臺。對創(chuàng)作者來說，最磨人的從來不是某一步有多難，而是一支片子得在七八個工具之間搬來搬去、導入導出反復橫跳，可靈想啃的正是這塊銜接上的內(nèi)耗。

（圖源：可靈）

Seedance 2.0 挑的切口則是多模態(tài)。它把文字、圖片、視頻、音頻都變成能喂進去的參考，用來增強參考生成、視頻延展和音畫同步。過去我們談視頻模型，下意識只盯著畫面好不好看，可視頻從來不只是會動的畫面，它是畫面、動作、聲音、節(jié)奏幾樣東西咬合在一起的結果。Seedance 把聲音和動作也拉進可控的范圍，等于在提醒一件事，視頻模型不能只會畫畫，它還得聽得懂節(jié)奏，知道這一刀該剪在哪一拍上。

（圖源：Seedance 2.0 ）

更直白地說，從整個視頻模型的方向來看，抽卡時代已經(jīng)徹底結束了，接下來是「可編輯時代」，也就是說，哪家模型能夠把整個流程打通、給用戶最直觀的優(yōu)化提示詞、二次編輯修改方案，誰就能繼續(xù)占領高地。

AI視頻不再碰運氣，人類要干的活也變了

繞了一圈，回到開頭那個問題。當 AI 生視頻已經(jīng)不是抽卡，人在整個工作流里的角色，到底會不會變？我的判斷是，會。

過去一個優(yōu)秀的視頻創(chuàng)作者，靠的是剪輯、調(diào)色、轉場、配樂這些手上功夫，一幀幀摳出自己的風格。這些能力不會作廢，但當模型能聽懂「保留這個運鏡，只把質感往廣告片靠」的時候，真正拉開差距的，開始變成另一套東西，會不會描述鏡頭、能不能控制節(jié)奏、判不判斷得出哪一處該留、哪一處該推倒重做。說白了，是「導演模型」的能力。

AI 視頻不會立刻取代剪輯，也不會讓創(chuàng)作者淪為只會寫 prompt 的提示詞工人，這兩種極端說法都太省事了。更準確的變化是，視頻生產(chǎn)的重心正在從「素材加工」挪向「意圖調(diào)度」。過去你是親手把素材一刀刀拼成成片，往后你更多是在告訴模型，我要什么、不要什么、這一版哪里還差口氣。

截屏2026-06-04 17.16.49.png

（圖源：雷科技制圖）

而這套調(diào)度能力，恰恰是有門檻的，誰能把腦子里那個模糊的創(chuàng)意，拆成模型聽得懂的鏡頭語言，誰能在模型吐出一版結果時一眼判斷出它到底可不可用、還差在哪，誰就更像未來那個「模型導演」。導演自己未必扛攝影機、未必剪每一刀，但他清楚整部片子要什么，知道每個岔路口該往哪邊走。AI 視頻成熟之后，創(chuàng)作者要做的也是這件事。

工具換了，門檻自然也不一樣了，可創(chuàng)作最核心的東西其實沒變，依然是你腦子里那個清晰的成片，以及你愿不愿意一遍遍把模型調(diào)到位。抽卡的時代要過去了，賭徒會越來越少，真正稀缺的，是那個知道自己想要什么、并且有本事讓模型把它交出來的人。

AI不會取代打工人，但會推著他們向前走

每次有個新工具把某項手藝活自動化掉，總有人喊飯碗要沒了，可回頭看，工具升級真正干掉的從來不是這群人，而是他們工作里最機械的那部分。

最經(jīng)典的是電子表格。VisiCalc 和后來的 Excel 出現(xiàn)之前，會計和財務一天里大把時間耗在拿計算器一格格算、一筆筆記賬上。表格軟件把這些重復計算全包了，結果不是會計失業(yè)，而是他們從「算數(shù)的人」變成了「做模型、看趨勢、給決策當參謀的人」。最枯燥的執(zhí)行被收走，騰出來的精力反而讓這份工作更值錢了。

非線性剪輯軟件普及之前，剪輯是真要拿刀片去切膠片、對著磁帶一幀幀倒的，所以才有“剪視頻”這種話術，然而 Premiere、Final Cut 這類軟件出來后，物理意義上的「剪」消失了，可剪輯師并沒有消失，他們從體力活里抽身，把注意力放到了節(jié)奏、敘事和情緒這些更高一層的判斷上。工具替掉的是手上的苦力，留下的是腦子里的取舍。

（圖源：seedance 2.0 ）

AI 編程助手出來之后，程序員里最先慌的是「以后是不是不用我寫代碼了」，可真實的變化是，他們花在一行行敲樣板代碼上的時間被壓縮了，更多精力轉去審模型寫得對不對、把架構和邊界想清楚、判斷哪段能信哪段得返工。會寫代碼依然重要，但更稀缺的能力，變成了知道該讓模型寫什么。如今流行的 Vibe Coding，某種意義上的確降低了「入門」的門檻，但真正要從 0 開發(fā)到交付， Vibe Coding 出來的作品往往很難過關。

回到 AI 視頻本身，它的下一階段，比的不再是誰畫面更真，而是誰更穩(wěn)定、更可控、更可編輯。創(chuàng)作者也不會只剩寫提示詞這一件事，反而更像一個模型導演，知道該保留什么、改什么、用什么參考去約束模型、怎么讓它連續(xù)改到可用為止。剪輯這門手藝不會消失，但創(chuàng)作者最值錢的能力，正在從「把軟件用得多熟」，換成「把模型調(diào)度得多準」。

工具一直在往上走，打工人要做的是努力讓自己始終站在 AI 工具無法取代的位置上。抽卡的時代要過去了，賭徒會越來越少，而真正稀缺的，永遠是那個知道自己想要什么、并且有本事讓模型把它交出來的人。

Goggle可靈SeeDance視頻大模型AI視頻

來源：雷科技

本文圖片來自：123RF 正版圖庫來源：雷科技

原文標題 : 從可靈到 Gemini，AI 視頻集體告別“抽卡模式”：導演模型要火？