今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。! k$ {) t, Q( Y) O, _
+ ^6 ~' D: e, Q! a& K f* x% X( f
% c6 @& O8 F7 Z
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。” 5 w1 `; o" K: h. u; w3 C3 y t* K+ r1 X! U8 d' W6 @" K6 o2 a( J5 b
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。 - x, M8 w; ?8 S/ h, @- ?$ |' t9 ~ 7 l1 V; ^# y8 Y: O首先,Sora 能创建出逼真且富有想象力的 60 秒视频; , Q% X& U6 ^5 W- d, t( _3 ]& F3 H: k: n+ Z; R; d9 P
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。 r* g- u2 S0 D4 ?6 y
8 V+ w$ z% l( E8 P3 L3 e
OpenAI 官网展现了多段 Sora 制作的视频。! G3 m( C* H" B. Q3 ?
% e2 R# a) }2 z. u: _其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。 Q: M. a. D7 L! \0 p" j8 `7 y
/ E; f5 ^8 S/ ^! z2 s D ] F
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。" F# X- r8 v9 c+ j6 p/ g( Z
$ Z+ y! e8 [9 S; F) ^- R D
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。: u# l6 ^0 x) \ `/ |
' ?- V1 D* S) w0 l其次,Sora 能通过现有的静态图像生成视频; 1 d& V* q/ O& W 8 w" e% ^( D' P- a! [# O* u; }再者,Sora 能延长已生成的视频;/ I6 {) v) N& b. ^" I; J; ]! S" Q: ~0 X5 x
7 M2 q# f( S s; W- Q' e; h
通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。 8 @+ Y. M G- |2 O- u / B8 X7 ^; _8 j; z, ^更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。 ; o, V1 T7 f1 _! |+ ]( h4 _2 q6 R, E _7 b
比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。 # {1 J" T$ ]5 A d0 Z3 q r8 s; U3 [6 N9 j也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。& V' a: [7 J" ?; G