星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
|% |1 R# y" \/ Y
! o) `9 _( ~; w( \
, b* Y/ O# [6 o6 ?1 Z ?0 P9 K这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
: C1 c t: O: W, V" ?+ C6 g" l$ f
& y; ?- O5 R' x+ r文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
% \. E/ \! F" k1 l* I2 \
! M ~; g: S% U0 _# U0 d$ u- X$ i- d! k首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
) C; G4 g( L! ?7 T0 \5 K& `. J* u. {* O9 f! b
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
( H8 A8 M2 l" U" `9 Q. A% J# t% H0 x% S: D- x) B- {% Y" Z* j
OpenAI 官网展现了多段 Sora 制作的视频。
6 ]9 W8 X4 Z+ [) E- ]# y8 W/ [
6 s, C9 v% y* C! n) v2 G' d其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
! ], p4 H( ]1 K9 ?) k' E7 D. `4 f
! L) k6 ^8 w0 Y3 C8 f
最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
: n0 o' Z9 h0 H7 H% b
" c& |* H0 {' H+ m% _! x) ?5 ~" W
在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
9 A; ^4 G, l( Z: x, n- N- g6 q0 i" W+ b) U0 W7 U* S
其次,Sora 能通过现有的静态图像生成视频;
0 ^: V" j( X$ j- `% [+ C( F
$ h3 S/ g' C1 V$ y6 V: d& L4 T再者,Sora 能延长已生成的视频;
3 d( e( P; H/ ]8 @# H
; W* l' Q# P6 [- h通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
# v5 b: v$ R( k6 g* F
- F) d$ u" K: c( M
更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
3 g, L- V& T K8 y; l6 f
& z: E; g$ O/ n比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
0 ~" F" r' R8 \* a
) B# k7 g$ }$ Z5 U% C也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
8 A% C5 B8 e: z! L$ G' l6 ?8 K" c" h3 P, t7 q |4 k( o
在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
& M" F+ J7 u2 L* e7 p" ~4 X
* g1 r. S7 Y- O+ x/ }, `+ z# f1 ?0 [当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
: M" u7 V# T. z( G Y
6 N4 z" T7 P u举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
: z6 c* `$ A* u; g
1 m3 {6 F; f; x6 a( q8 b: sSora 为什么这么牛?
7 @4 w6 X/ ~! U0 S, Q7 P0 Q
3 p, |. s `+ i' L4 `4 A: S6 ?据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
^1 O0 c7 w' i; K" B
, G) i" Y1 k7 v; `; U5 K4 b) M同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
. E+ {' O9 k* Z( [$ K) n" Q; G0 \% S" a/ E' c! I U
Sora 火爆问世,投机者也盯上了这块“蛋糕”。
" V' ?0 P$ x* `- c/ f \
0 H! b' [& }1 C
据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
( E! S, B$ |7 u+ v6 Q, x
( l. E; `9 [$ p; L5 \; _) Z# G所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
: @9 u* f6 |* _& V& l+ P+ ?! a0 H* M
部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
0 C& Y# f! U7 D5 G$ C3 C& `% m, O N; P- B
但需要注意的是,目前 Sora 暂未对外开放测试权限。
: _/ M* W' y2 u0 v8 R2 I$ J" Y4 b% Y2 N/ I6 p9 C; x9 E
OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
- Y, g% \: ~' l% M4 V- J* F' w$ U% ~6 S/ a2 j
OpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
( C- k" @" k" y% z7 {" Q9 s# v
: Z3 n- g2 D- a! U在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
2 ~8 z+ N6 q' B) B
! r1 o7 h+ u2 G5 u i/ \