Sora實測｜用文字生成的「魔幻MV」出爐，準確度拚過Runway、Pika？|數位時代 BusinessNext

Sora實測｜用文字生成的「魔幻MV」出爐，準確度拚過Runway、Pika？

OpenAI揭露最新影像生成AI模型「Sora」，號稱可用文字能生成以假亂真的短片。如今實測結果出爐，一支由Sora生成的MV，連導演都直呼「魔幻」。

OpenAI今年2月發布影片生成工具Sora，宣稱可透過文字生成影音內容，由於應用範疇廣泛，引起全球相關產業人士關注。據外媒《Financial Times》報導，在人類一定的提示之下，Sora已經可以應用在廣告、音樂MV的實作過程，以加快創意領域工作者的溝通過程。

從事廣告業的品牌顧問班揚（Charlotte Bunyan）指出，她在為知名超市製作廣告影片時透過Sora實作，並同時比對同為文字生成影音內容的AI模型Runway和Pika的功能，這兩家公司都聲稱只需幾個詞彙提示，就能生成AI影片內容。

班揚指出，無論是Sora、Runway或Pika，都能透過「將想法可視化」來加快交流創意想法的效率，但Sora對提示內容的呈現更加準確。但她也強調，現階段無論使用何種AI模型，生成內容都需要人類進一步處理。

報導中也指出，獨立藝術家Washed Out的新歌《The Hardest Part》MV，是透過Sora製作的最長作品。據悉，MV中的影片，是由Sora依據詳細的文字提示所生成的55個片段拼接而成。但這些片段的連貫性仍有瑕疵。例如同一名角色在不同的影片秒數中長相不一。

對此，特里洛在推文中指出，這些差異反而增強了影片的奇幻性。他認為Sora能夠強化生成內容的創意元素，「但不應成為主導工具。」

《數位時代》曾報導過Sora亮點，以下是原報導：

從和人無礙對談、寫程式到通過Google的工程師面試，OpenAI的生成式AI已經展露過眾多能力，現在他們又掌握了一項新技能：拍影片。新亮相的AI模型「Sora」讓用戶能夠用短短一句話，生成長達1分鐘的擬真影片。

「為您介紹Sora，我們的文字轉視訊模型。Sora可以在保證畫面品質及遵守用戶提示詞的前提下，生成長達1分鐘的影片，」OpenAI在官網中表示。

生成影片極具真實感，OpenAI揭露最新影像生成技術

生成影片的AI其實並不新鮮，從Google、Meta等科技巨頭到成立不滿一年的新創Pika Labs等公司，都發表過生成影片的AI技術。而Sora最大的特點在於極其逼真，外媒《Wired》聲稱，這是沒有在其他影片生成AI模型中看見過的真實感，並且生成的影片長於其他模型。

根據OpenAI在官網上的介紹，Sora能夠生成包含多名角色、特定動作類型以及大量細節的複雜場景，而且AI不僅了解用戶在提示詞所說的各種物體，還知道這些物體是如何存在於現實世界，進而營造出讓人驚豔的逼真感受。

另外，Sora也對語言有著深入理解，可以準確的呈現提示詞所說內容，生成吸引目光的飽滿角色，且可以在一段影片中建立多種不同的鏡頭，並精準保留角色及視覺的風格。

OpenAI也在官網上揭露了大量演示影片，例如一名女子走在東京街頭的短片，其提示詞為：

「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子，拎著一個黑色包包，戴著太陽眼鏡，擦著紅色口紅，走起路來自信又隨性。潮濕的街道反射出七彩燈光，行人熙來攘往。」

（A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.）

這段1分鐘的短片裡，雖然從招牌文字、道路布局到路人過於平滑的移動等等存在不少破綻，但乍看之下仍然極為逼真，若是焦點放在時尚女子身上的話，或許一時半會沒辦法注意到這是全然由AI生成的影片。

且不光是具有現實感的現代影片，在提示詞：「淘金熱時的加州歷史鏡頭。」（Historical footage of California during the gold rush）裡，Sora就為影片打上了充滿年代感的濾鏡，不過包含建築布局等仍有一些仔細看便能發現的不合理之處。

OpenAI指出，目前的模型存在弱點，難以精準模擬複雜場景裡的物理原理，並且不太能理解因果關係，假如要求Sora生成一個人吃餅乾的影片，可能畫面中咬了一口餅乾後，餅乾仍然完好無缺。同時Sora還有些左右不分、難以精確呈現隨時間變化的事件等問題。

至於生成這樣一部充滿真實感的影片需要花上多長時間？OpenAI沒有公佈具體用時，僅向媒體透露所費時間大約是「出門吃一餐墨西哥捲餅」，

Sora還有些功能沒有對外展示，例如從一幅圖像生成短片，或者替既有影片填補上缺少的幀數，甚至延伸內容。OpenAI研究人員比爾．皮布斯（Bill Peebles）表示，「這是一種提高講故事能力非常酷的方式。你可以畫出想法，然後使其成為現實。」

目前Sora還無法撼動電影產業，因為每次生成的內容多少有所差異，不可能將120部1分鐘影片串成電影，但對於TikTok等短影音平台來說，將是顛覆性的新工具，即使是普通民眾也能利用AI技術生成高品質的短片。

一般民眾使用Sora還要再等等！OpenAI正與各界合作防範安全問題

不過如此逼真的影像生成能力，若被有心人士用來生成假消息，該怎麼辦？這也是為何OpenAI還沒有公開發布Sora的原因之一，目前該模型僅提供攻擊模擬團隊（red team）和少數藝術家、設計師及電影製作人使用。

OpenAI強調，目前他們正在開發能夠檢測假消息的工具，並計畫嵌入C2PA的後設資料（metadata），例如先前在Dall-E 3中，生成的圖像檔案資料上就會顯示該圖片是使用Dall E打造。除此之外，OpenAI聲稱也將一併包含Dall-E 3既有的使用規範，拒絕生成名人，以及暴力、性或仇恨內容。

OpenAI聲稱，他們正在與各國政府、教育人士及藝術家合作，以了解各界的擔憂及如何正向使用。「就如我們無法預測所有正向的使用方式，我們也無法預先知道所有惡意使用方式。」他們在官網上表示，「這也是為什麼我們認為從在現實世界的使用中學習，打造及發布更安全AI系統的關鍵。」

資料來源：OpenAI、Wired、The Verge