星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
0 Q) u. i0 F6 Y# e$ Y/ l/ Y2 Z1 S/ X. M1 A1 E- x9 c2 ?
. o3 O9 }5 v4 @# H; m7 U0 i
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
5 g, C) e) `+ b! h7 b
: ]2 P: ]7 E8 o% l- z# g5 M
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
) O0 G) b2 X1 \! Y( o- f
$ Y" E% E$ s9 u: h首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
7 b. n1 d. m" C. x5 Y, u% k! h- `( a I2 p' L* X
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
; u- ^7 ~9 C- M
W2 a2 t6 j; i+ nOpenAI 官网展现了多段 Sora 制作的视频。
; \3 H$ H U9 z2 u1 |& J5 U5 D+ g) ^0 r: L2 Z
其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
j$ [2 N" A2 ?. Z5 H6 `
! H5 `" J; O) i' q* U6 |最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
* c! z" p5 Q' S* r
( h/ k: p6 i) e }6 E在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
) a B4 v$ [. U5 L! f6 o, |
$ ~6 {5 g2 m' y- p4 R
其次,Sora 能通过现有的静态图像生成视频;
$ T1 _ A# c4 w* r7 N, X5 Z* N/ ?' g, ~9 D
再者,Sora 能延长已生成的视频;
5 s# f" } ~. G
$ P- u3 j% `! m% G: I& Z' c" F' S7 r( F
通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
2 `& R- ]/ W8 ]) G, G+ A% P' O8 P" ^1 m6 e2 H( [" d2 E4 I# @! n
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
# z( N$ d. b8 ~3 ?; ^+ Z j; R
% T% `4 w3 e# J) G) Z比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
* `- V& Y# B0 K' N# Q+ V8 R
: ?& N5 x+ U8 M6 @+ _
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
( ^+ j/ S5 X; J0 `6 j' L; K/ J/ j6 _
在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
5 k+ e+ w, @: R5 Y! z, y" f; ^$ `! N$ C2 Z* `
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
( Z! Z0 D: q1 y1 q6 S9 [7 D" j
. D4 x+ @1 ?$ J/ ^5 D0 Z1 |2 {举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
& N4 K, j7 F; k/ o$ t
( A$ u4 J' I7 q- I: L+ S
Sora 为什么这么牛?
$ f2 ^$ U* R1 j" \- B! M2 E
. B9 I4 j5 ?) _8 i4 {, W) _6 W! t据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
% }; M/ d3 b* D5 b+ u
5 M4 R' h) r7 ?7 l" j同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
" x& }% _2 V$ O8 m7 G& ?
( D$ |: w# a8 ~9 ^; [) \5 o1 n' w* a( ?
Sora 火爆问世,投机者也盯上了这块“蛋糕”。
( L' f' W' y2 i; l; a) X
# q& H. r! u2 w6 ?+ L) u8 f4 _据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
! h1 Y3 v0 l4 |/ m3 G: [0 g
$ \9 f( ]% o2 ]% K% A5 L所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
, t" R a- T7 w% ~' T0 F- u$ Q
部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
4 |' j% ], c# z4 d0 c& d i8 L, L! k' Y: T& N1 M+ S
但需要注意的是,目前 Sora 暂未对外开放测试权限。
9 @7 ~/ O; \! F% z9 g8 ~2 E
. a( D( {8 H! H" r+ z) `! `- E( @
OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
6 i/ h' I `0 R4 I% Z
8 r' w; i, ]. COpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
! E" ?; H- }2 O' o
! {7 X3 l4 i* b3 A' ~4 y% Z在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
" c7 N: B4 P% a/ f5 ~# U5 E
4 t+ s8 I5 q- B/ o# Q H5 ~1 ]" H