星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
. X" N( T( \0 C3 \! C4 a# [1 _# \' ?, i4 r
- l5 j e5 k5 e' {5 f0 ~
这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
5 U; D/ i$ b/ }9 \8 u4 j' a! v B8 O: S4 C" o" p0 X9 [% _
文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
1 N9 {8 z9 m7 F& E1 l
0 o% p a! B' @1 Z1 J: Y% s1 C首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
* ^! Z U- Y3 Z4 D
$ R( p+ s9 Z$ ^5 B, G P在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
) [0 `5 x7 v7 h$ `. l0 {0 P% c
' ]6 L2 {8 m6 l& NOpenAI 官网展现了多段 Sora 制作的视频。
1 \* I1 l! Q, c9 H% f- e( T- u9 |
- O1 e- R. x X; }, @
其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
. m& B- L* U/ ]& w T
) n, F+ |5 N$ [$ P9 w E! ]最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
7 T+ B/ ^, _% _# {$ ^6 A2 i
3 k6 q* D& l( _% A* E. Y在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
5 Q" o9 C: ]5 O5 v: P( M
/ q; |* d% y: [" @ ]其次,Sora 能通过现有的静态图像生成视频;
9 E+ g- [1 e* g5 J) G* [* i+ o
/ E3 _) I6 x ^) A* c; ?& U- [再者,Sora 能延长已生成的视频;
. ]& Q& K, ^2 g5 F- _% S& k
6 T N0 G! j% q% b9 N9 V通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
% s- H5 Y5 a8 e2 s
% _5 O- L8 O: `8 E
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
9 e* ^! T4 `( T) Z4 ~! v' m
" |4 \/ C4 ~1 o/ ]* {" R比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
+ ^9 U( b' M+ c8 n$ Z! F; [/ Q; Y, l5 |+ B) z2 m' K7 n
也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
- U* B. B* P$ t1 ?0 o
: @ X1 F# _: G8 Q0 a6 ^7 c在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
3 W, @, v7 {( y8 ~6 j a0 J
4 {$ V1 M: f$ y! [当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
2 T) s$ }8 U5 i; m5 D/ v% o) t5 @2 e; h
! k7 ?+ x5 Q' D, F
举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
9 @9 q, a3 v1 }# P0 T- i7 j
. h; M/ T: m8 _8 K4 c5 j
Sora 为什么这么牛?
9 K B1 d& S7 ^/ c
! o( S6 l( F% O* U4 N4 D据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
3 v1 }" x9 P# d' s4 ~* ]( I
4 O/ y/ m% U! k
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
+ Z6 j0 j7 J# A: P7 w* Q& c8 q2 z
6 b7 _8 O F8 w" r6 F2 B$ `Sora 火爆问世,投机者也盯上了这块“蛋糕”。
L, N6 K- S" O0 O9 v: u0 `! l
- q$ P0 X8 q) x5 ? S- @4 c4 H# j据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
# f+ D3 L- K+ X
6 X0 F& W& z8 {, Q& m/ | o8 D所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
& I3 m0 ?2 r" Z" A7 A7 R [3 }) X) T+ @1 Y" M
部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
! o9 h% E2 f9 M) L1 B# w7 b% s
1 Q; L1 ~) p. _3 f
但需要注意的是,目前 Sora 暂未对外开放测试权限。
) p4 N& ~2 E3 |/ ~$ p
! k' B% j, J R% ^( @( hOpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
) ]6 {+ l$ N0 r4 V3 [- Y
/ l9 _/ @4 f, F& a3 P- Z& l# ?" j' LOpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
8 n( z5 S' o) m9 n/ |: } b \0 B6 B, p% R5 [( n
在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
1 I5 M& J/ a4 [1 E& ~8 l* H: M# F0 f+ |6 o" A