今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。8 m, X+ `! y- ` u9 h
3 Q1 ~* D. E: J# [
+ R6 b/ y9 u- h4 R
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”' j$ C+ E d! j* l1 m, a
" c& ?# j& j: j
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。* n. B7 c n- m0 n) E5 `9 T
& u3 c; U6 v5 {$ N首先,Sora 能创建出逼真且富有想象力的 60 秒视频; 6 \! M- ]* ]! m0 i: K7 }% W; F9 K8 g& u( }$ W
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。6 Q, o* c: n1 C; e. y
2 f( d) g* L( E! k- s7 S. p
OpenAI 官网展现了多段 Sora 制作的视频。 9 A; m) ~* r9 N; y + Y8 V! m0 k( L4 \* d7 N* H7 u其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。 3 T: H5 x" O# t+ A/ o% U& w1 g6 F' r1 d1 W ]3 B, `' D/ V8 g
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。 ! z: L8 h0 x3 ~) ~6 @1 F+ W: L, ~' m7 K1 J1 E* q
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。 * S! \, Y E, Z% T' @5 V _7 }! `8 V
其次,Sora 能通过现有的静态图像生成视频; & f! l6 N+ l" R$ Q; T6 f ' `9 l* \* {1 i* _5 C) \, m再者,Sora 能延长已生成的视频;+ |8 k7 E0 {- y7 K
7 d) T8 A A( @2 d6 E
通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。" I: b* _9 X6 O$ O" F" p
: E; E/ M8 W! i' b+ Y: a$ p1 x R: U更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。 5 ?- P4 i6 S2 S( V8 U0 y! q/ m x1 T: F0 T( K1 `! C/ w2 n
比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。6 {4 f% K' h6 \ R: @
7 l2 R7 d# X' N- ]/ o
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。 0 e; \( l0 ^; |0 r+ o8 S$ D( S5 T9 p" j
在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。 $ S. x u" k( T2 u" N' {) r$ [4 j( I' L' Y1 z. A
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。 8 e: m! m! `% {, n A- s: _4 p; O! B4 ^6 Z& s
举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。 " W) o& K$ l# v1 b6 v 4 N; z% B4 U7 S0 G4 C% J7 fSora 为什么这么牛? - o& t) l& i6 U: ?, A7 E1 |1 @* O( O. c. @
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。 # f. ?& i- s) Q0 i0 F9 _! H( b3 H1 H2 H) d8 }
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。 7 K* B* T6 H7 I/ `% i! i$ e: L+ g9 m8 Q: ]2 w& _2 A
Sora 火爆问世,投机者也盯上了这块“蛋糕”。 2 j7 ~: z# {/ b6 D& \' m( C- |, X$ {5 m7 h+ E! c7 A2 g' N4 s
据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。9 e C [8 p3 U+ {/ U, Z
2 t% {, d. F. m. M, Z
所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。 ) i9 L* `& G9 S2 B# P; } : R: J" g9 x" S5 W) j( g: o部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。+ S0 h( k& e. x6 p& j
1 b+ j7 G0 C: y
但需要注意的是,目前 Sora 暂未对外开放测试权限。' Y7 u, E! \+ W$ ]