為達至最佳瀏覽效果,請更新至最新的瀏覽器版本。
如有問題,歡迎電郵至 pccwmediaiapps@pccw.com 查詢。
【阿棟有事求教】OpenAI 的最新搞作,人工智能模型 SORA,這個名稱源於日文「空」(そら,sora),以示其無限的創造潛力¹。SORA 技術基於 OpenAI 的文本到圖像生成模型 DALL-E ,該模型的訓練數據包含公開可用的視頻,以及專為訓練目的而獲授權的版權視頻,但具體數量和來源尚未公開¹。
OpenAI 在2024年2月15日向公眾展示了由 SORA 生成的多個高清視頻,並宣稱該模型能夠生成長達一分鐘的視頻。然而,OpenAI也承認了該技術的一些缺點,包括在模擬複雜物理現象方面的困難³。《麻省理工科技評論》的報導指出,演示視頻令人印象深刻,但可能是經精心挑選的,並不一定能代表 SORA 生成視頻的普遍水準²。出於擔心 SORA 可能被濫用,OpenAI 表示目前沒有計劃向公眾發布該模型,而是給予小部分研究人員有限的訪問權限,以理解模型的潛在危害SORA 生成的視頻帶有 C2PA 元數據標籤,以表示它們是由人工智慧模型生成的。OpenAI 還與一小群創意專業人士分享了 SORA,以獲取對其實用性的反。 Sora的三個特式包括 「60s超長長度」、「單視頻多角度鏡頭」,「世界模型」。 60s超長長度: pika和runway還只能生成4s視頻,這60s直接拉開了差距。而且動作連續,還有一定的藝術性,沒有生硬的感覺。 單視頻多角度鏡頭: 在60s的視頻內,可以在保持主角色不變的高度一致性的同時,還生成多個不同角度的分鏡。
世界模型: Sora有時能夠模擬對世界狀態產生簡單影響的行為。例如,畫家可以在畫布上持續添加新的筆觸,或者一個人吃漢堡時留下咬痕。這個就厲害了,基於虛幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。 SORA 和之前的runway和pika很不同,Sora是跟ChatGPT一樣是有理解能力的,它可以感知真實的物理世界和自然語言。 而且可以大幅度降低了短視頻製作的成本,因為只需一個簡單的提示詞,就能生成一段製作精良的60秒視頻。 還支持使用圖片或視頻片段進行擴展,生成全新的視頻。 同時也支持將兩個視頻合併整合成一個新的視頻。
原先汽車廣告視頻要花費大量的人力物力,是不是可以AI生成了?電影宣傳片是不是也可以?短視頻和短片本身就短那就更沒問題了吧? 但是需要創意和價值觀的電影一時半會還不能被替代。因為需要好的估時劇本,好的導演,好的演員,大家配合才能演繹出一個經典的電影。 同時其能生成4K圖片,能夠生成圖像,分辨率高達 2048x2048。除了Midjourney和Dall-E又有了個新的選擇。 Sora的訓練受到了大語言模型(Large Language Model)的啓發。這些模型通過在互聯網規模的數據上進行訓練,從而獲得了廣泛的能力。 Sora實際上是一種擴散型變換器模型(Diffusion Transformer) 。 它能夠通過從一開始看似靜態噪聲的視頻出發,通過許多步驟逐步消除噪聲,最終生成視頻。 Sora 不僅可以一次性生成完整的視頻,還能擴展已生成的視頻,使其更加長久。通過讓模型能夠預見多幀內容,我們成功克服了確保視頻主體即便暫時消失也能保持一致性的難題。
Sora 借鑒了 GPT 模型的成功,採用了 Transformer 架構,實現了前所未有的擴展性能。 我們把視頻和圖像分解為小的數據單元——補丁,每個補丁相當於 GPT 中的一個詞語。通過統一數據的表達方式,我們得以在更廣泛的視覺數據上訓練擴散 Transformer,這些數據覆蓋了不同的時長、分辨率和畫面比例。 Sora 在 DALL·E 和 GPT 的研究基礎上進一步發展。它利用了 DALL·E 3 的重新標注技術,為視覺訓練數據生成高度描述性的說明文字。結果是,模型能夠更加忠實地根據用戶的文本指示生成視頻。 除了能夠僅憑文本指令生成視頻外,Sora 還能夠將現有的靜態圖像轉化為視頻,精確地動畫化圖像內容,並注意到細小的細節。模型也能夠擴展現有視頻或補全缺失幀。更多詳情請參閱我們的技術報告。 Sora 為理解和模擬現實世界的模型奠 定了基礎,這是實現人工通用智能(AGI)的重要里程碑。
linktr.ee/aforadvice
音樂 Playland Promenade - VIDEVO.NET
#SORA #Dall-e #ai #人工智能 #no-code工具 #no-code平台 #no-code教學 #ai #人工智能 #what #aforadvice #阿棟有事求教 #email #rpa #productivity
https://www.youtube.com/@aforadvice