星级打分
平均分: 0 参与人数: 0 我的评分: 未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
M J( J4 O( D
1 j2 {3 L' q6 A$ U& B* M8 ]4 T
" i$ G; I& z# m- C0 P 这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
, S& n: M* R+ L" N5 Q7 X* R, L
- Z1 ~0 H0 X6 `+ D& [6 C9 ?
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
+ o3 r- P9 G) Z" q" f4 `
5 K: i3 a: ^2 d, N
首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
' V0 [* T- x& b& E8 D1 f } # U* S1 f) h6 p
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
. q) ], H# A8 H% h
, {; ^3 Q C% }. x% s& u OpenAI 官网展现了多段 Sora 制作的视频。
- H$ A, d7 M3 L- Z. T9 u 3 L7 _- \* \. D1 c+ f4 [5 q
其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
/ A( x. Z+ H! y6 y: k" g4 r 7 v) g& ~ y, Z! a: u1 A
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
& ]" }8 f+ I1 l d7 J* {$ m- s# Z
& a9 y# A( P# O6 u
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
4 V* _ ` I0 Q
! t& z# p6 ?! {4 m! ]) z 其次,Sora 能通过现有的静态图像生成视频;
8 P% ?! m( o% U" A! b9 B6 `& B) w
$ _# P8 h2 p$ b, y" @
再者,Sora 能延长已生成的视频;
' @* H) p; O$ w6 b: k3 u
' j+ Y9 L4 ]: n7 ^/ R! k1 ~ 通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
7 q0 ~- w3 \( F$ C( n1 A; A ' l. }. u, o4 u. C1 L3 h; A
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
4 M6 G3 l0 K+ }8 S# M5 Y, w
" i) J, i- ^- p 比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
7 c# T: W8 g; u" S3 s$ N8 T/ W , U- R* ~3 J5 h- x1 j" d9 a
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
9 P& r P9 i& b. a8 g
. S2 _2 u6 I# o# `3 w$ n 在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
' { N! ^4 H' f* C4 ~8 z2 ^# k/ { ; X. l3 Y$ {* {" |/ `; B
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
; y9 S2 z4 v; B1 X+ @' G
3 n; {; T; X& @ w* i: m3 h0 x% B 举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
- c) a1 f7 j Q, q4 l
- x7 e9 n5 t5 L- T' |2 V Sora 为什么这么牛?
0 h, s. f% G) ^# H L L
- e6 z0 s+ a; f- [- v
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
, @1 g( U5 s2 e9 n \ x- v' W% L) b
/ d' | u6 a$ c8 y) S6 a 同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
# j, P! X7 b* f# ?4 P 4 Q$ b+ w# x, q- `5 i: s
Sora 火爆问世,投机者也盯上了这块“蛋糕”。
% [6 t4 w( X3 u" C8 S! J, g
% H- ]1 J; r9 \' K5 h, Q' I- h( { 据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
) B0 r& E4 c( h$ R" h- l
H/ i; y6 o* q: [3 Z+ \+ x. ` 所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
0 Z7 i- _' P4 d) u j
$ k" A9 O( H( E6 m# [1 S% {) I- A 部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
4 n. |9 }# @ i, H/ W N5 J1 @& D. I
但需要注意的是,目前 Sora 暂未对外开放测试权限。
5 ]* m% X0 z3 f; H0 y9 n6 `
# e1 ~, j E: H4 D5 @0 \4 R- O OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
+ v- E8 B* l) E
7 J) I4 T. M) ?& ?( A+ H/ h+ Y6 n% i OpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
1 r# a1 R! S+ O+ J0 R K
2 I0 z* l; n# Q9 a 在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
" v; Y" g9 |+ R" r: e3 a4 V
1 I: w% l& ?( B" B) Y% V1 U