星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
& k$ v5 }- C1 e% j" `: D+ p
0 i% N6 l2 H. @9 E$ N, k ^8 n$ P: x7 w2 q. X( d8 ^! u! D: a2 [& i
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
. D* K4 A/ v: F+ L9 c
4 z! w0 ?* t% c9 X1 b8 j
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
9 C' |+ ^2 u( ^) b. g
- w- i* y- R+ j$ m$ f首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
1 X8 D) Q3 `8 f. v/ `% A# o: [
: ~$ m( P5 Y+ l {0 [! R% O
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
5 r8 Z6 {( _/ d3 Q0 _ T' a3 k9 \! l. a' c3 J
OpenAI 官网展现了多段 Sora 制作的视频。
1 ` U4 r: L! \5 O- |
; d6 D7 y5 l4 j* m. v! p其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
8 e* E" t" S$ h& U3 p( l1 K& q" M' s6 {* C f- B4 g: }* m1 q
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
3 h8 l) P, Q9 s7 A9 D
8 d) \/ z' T0 @: E9 V在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
% j, Q; y: H% Z: W" J4 b2 B3 N6 e# b
其次,Sora 能通过现有的静态图像生成视频;
& d9 l3 U ~- [% X, @: ]
/ M2 |# @6 ~$ D- S* G& I E/ G7 f再者,Sora 能延长已生成的视频;
1 h7 j8 p) P; f! o6 \5 @) P
! ?9 u+ P* W% i8 F( B! _ X/ P通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
* N% I3 I4 Q6 J( U! j
9 \# B' N, c( b
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
8 M7 N( v7 A# c. g
, @+ U& O8 J3 J& c6 V; k比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
: e9 Y& c3 q B3 q3 e: y2 }1 l8 o C0 ^2 m" Z r& n9 R4 Y9 v
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
: p: D4 E0 t% `0 f
( A! u& \7 @ [2 y在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
6 ~, ?8 H9 [# m6 J( Q4 R
, k* y3 a3 z" P; q当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
* ]5 b* e8 @4 q9 K/ X1 H# ~+ B4 m# w- d" \9 }8 `2 T7 _& p4 l
举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
& w5 `" X0 s5 C3 P5 i7 _0 {
: \% I/ L' `' @5 Q9 k$ c9 s4 t
Sora 为什么这么牛?
! C9 S7 J# V! ~, l! ^% ]' f* H- J& o# f3 k- [- Y8 x% I
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
f3 u$ c( D, y% B9 n# J" [% D U4 l6 e7 W0 x2 {
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
- Q$ s2 B$ g8 ~7 e8 `+ F( ^1 k4 }6 }6 \1 U8 Z: }/ j
Sora 火爆问世,投机者也盯上了这块“蛋糕”。
8 q) V% _9 a3 k8 t' G3 d
: M/ Y5 G7 ~) ^4 T+ L9 I. e) V& f据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
- X, L9 J2 f( `9 S8 f
) w& ^+ e+ t( g, r9 l" Z
所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
! D! C3 w: y' ?
4 m2 m* A3 O! x9 |0 X部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
- E" ~, j _% w& U# _- y
) n# }" ?$ | x7 Z" z+ A9 b1 {但需要注意的是,目前 Sora 暂未对外开放测试权限。
7 a0 u, i: l) P2 U5 v; {3 j) o/ W) d$ }# w8 K! p, l( x
OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
) O2 B0 u2 a, V# e7 ?" W. r w
$ a/ S( ]# R( `+ P7 K L- ^OpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
. L5 M8 s& s0 C+ V" n. W% y
& X7 Q* S3 |! l: W在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
1 L9 V5 U0 D5 o( N1 q, h0 {/ L; R( s: ?6 |