星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
# R0 C% o5 H: B* U, b$ c: R* \: j$ v& D
0 `* ]$ \. B& W2 V% _2 I这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
, ]/ w6 `/ \6 U* f$ C9 J1 z( U% _6 S. d* j$ G9 \; |7 L- d9 \
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
* s, M4 Y6 G& z
5 l, ?0 ^$ h# k$ y2 ?) |
首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
, s7 U/ `) _, T' Y
$ j1 K% l- `3 V; A在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
5 z/ M! d1 {- k) C* B7 {) I1 }5 q& K f
7 h& M2 `7 V9 L3 e9 ~OpenAI 官网展现了多段 Sora 制作的视频。
/ Q* R+ J6 f e8 z1 a, m+ a, t) F& O
其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
9 J7 \6 G% }: `1 o
) H4 Y0 j' X1 V9 U; T
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
6 h* p5 v! e' C- _) O; E
9 | \. \& ]' K/ @) e* f! i3 n
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
& i0 E9 V& u# ^7 r
* b* N8 Y# Y3 {$ P; i" Q% g其次,Sora 能通过现有的静态图像生成视频;
1 z, {9 [" L/ r+ m: Q3 a0 q4 p8 J4 r3 U! W5 k
再者,Sora 能延长已生成的视频;
7 E4 a% l# k9 |- G" e- S H
r* V4 I7 m N( R+ i通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
* _. g3 t! K) G. _, v
% T' s, q; s* z" g3 u8 o
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
3 B# O( N& Q0 B! q) i4 ?) c
% t! Q' R& m- Z
比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
; a" |+ G' |( e* b2 v4 G2 }8 {* `. {3 Y/ q5 N% P/ \
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
/ S9 V# d5 w; S n# t5 @. ?
4 H- Y, s0 S m# M( e$ B" y! M! X% g在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
# t- o' a6 p3 I' e& F
4 m1 ?! r ~3 i
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
/ s) k' a7 G) l w, {, j/ R; j
# z6 m" \6 v% z9 v举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
! X! L% b5 y" ~* K1 C# g0 c% q
% E# e5 L; ^5 `# j2 u7 J# a6 Y. TSora 为什么这么牛?
- q* B* z% x+ H. w0 ^' h
( v; b+ n7 a- }% p/ n; u# k/ u
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
0 s y9 I/ _3 e- H8 k* c( B2 `) c$ k& y9 I" a8 u- R
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
9 ^: I, \" D& f" ]6 x2 A- g
3 c9 S: w: _) w8 q, Z9 V; D# M7 X
Sora 火爆问世,投机者也盯上了这块“蛋糕”。
3 \4 p/ q% `8 U6 b1 b
) _4 d2 A1 h) N, \- d据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
( a/ ^' `+ u9 [% P
) C* E0 `; \2 n' t0 [, R$ ~所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
( i) e2 f( a E7 x; D
5 X2 Z1 m$ W% y5 P; X9 ]0 ]0 e部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
9 E: Q; j' r! r& n
7 E, c4 G8 y0 D! X+ z/ _5 K但需要注意的是,目前 Sora 暂未对外开放测试权限。
0 o5 [+ | Z) L0 z' j7 L6 Z' G5 b7 ~/ w/ P1 a, h1 l/ \: i* m y" @
OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
! t: b' N. v; s z" v7 X
7 E2 g; ^5 J- Q5 c7 X' M
OpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
. T8 \7 b/ k9 }" w2 C, r6 C
" j3 \$ V4 p: m
在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
5 F- F' u6 h2 r1 v
# v, D6 A$ B# K7 O/ Y3 r9 n6 @