今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。' u) v- ~& T+ t
T+ Y8 Z' ~$ L. Q
9 e" _. W- [! v0 r" g+ @2 P
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。” " c$ I4 Z! _# s" x: a {6 X- x' j7 Q8 Q u2 K. D. N/ m
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。 : z; C7 g5 x9 s) q U; ?' Q% w 7 p+ w& Z2 W& W0 t5 _首先,Sora 能创建出逼真且富有想象力的 60 秒视频;( \4 S- B$ j/ f+ |5 C$ }
% J: K- ~$ g% l; K在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。 + l$ F4 S$ C" m. H4 y& n7 j$ U ~, q
OpenAI 官网展现了多段 Sora 制作的视频。+ E. u- V$ s1 d7 E7 T
! j5 g* ^$ W) I! j: Q: r其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。8 e. }* }6 c \& K& k4 V
: D! M" ^3 Z2 [: Q7 |- J; s最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。# }$ w R& _0 @3 N$ `% m
4 D+ b" j! n/ M4 l! b, w
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。; V) d# o/ Z; T' @# B3 } W
D* a4 l: |: ^1 t6 _( T! @1 e3 a
其次,Sora 能通过现有的静态图像生成视频; & F* P; t6 U e& c/ n3 ~ & H( O, b& V1 u) S* l再者,Sora 能延长已生成的视频; ! C( m9 |; K( [ a6 N4 J' c+ F. v2 p6 g% i通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。 8 ~0 h* a1 k+ E" p, G+ r' }0 ? \2 T 6 ^( m8 V; H7 v& z5 p" H3 F更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。 , C) H" z' x3 ~" R" f) j0 _3 V$ y8 e ! k2 S V) E8 i5 s2 p比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。 3 s4 o9 |% s' c* w# ]% t6 e Y/ L- |: U. P/ |1 K- V" N
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。 - D' M$ L! c" ]4 O/ d- @8 j" ]& ^/ x) H ?7 t( i3 Q+ F; u
在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。 b) M0 x' J1 G. z$ o: ~! e7 W5 G
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。 & `/ L8 K0 F1 w% S. O' `) k: q+ u: \0 E9 q0 n
举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。 5 Y. G6 ~8 C' w% |4 @" v& {: U) ~, V# t% j) [
Sora 为什么这么牛?( V& ~5 x& U) g5 x2 d/ X
3 I) Z% R2 a- N4 R. p! ^2 Z6 d8 n
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。! |( F" v1 @8 R5 {8 ~
; H6 h! i# [6 e" t( x% O1 I
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。 1 v2 _6 ^( R$ O5 m, j$ }+ V6 c $ y: e% C3 Z7 QSora 火爆问世,投机者也盯上了这块“蛋糕”。 ) w, ?! u& G% ~8 O d( h+ Y( U5 }* n. C) N2 F% |" r& ^3 S
据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。9 B6 p1 ]! }. s& O! |! H Y. [
' T+ Q3 G3 ~8 H& ]所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。 ! t: E) p( U# M4 f5 N 3 o: v8 b2 n# B) R& a* M- j1 u部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。' ]* j8 \" O9 B, d' i2 v
3 q+ }4 T0 `6 v; r: J但需要注意的是,目前 Sora 暂未对外开放测试权限。 : f7 \$ V/ F. v# X' }% E ( [* {8 d1 {& C) n$ fOpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。 ( }7 ?6 {- H2 U4 N. J T) U0 j ' s/ p! L7 v( ~; qOpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。. y' U( j2 ]) _: m! @5 H
0 E/ Q- y( U$ R' A6 R
在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。. K+ b( T6 Z' E7 d% J