星级打分
平均分:0 参与人数:0 我的评分:未评
今年春节期间,OpenAI 发布了文生视频 AI 模型 Sora,瞬间引爆全球网络。
n) F5 A* E$ K/ r5 l! Z+ W
' Z5 G! b) \* L( l7 L; T1 ]
" x) w$ H: U" x0 g+ ~8 o2 w这一大模型引来马斯克点评“人类认赌服输”;令周鸿祎预言:“这可能给广告业、电影预告片、短视频行业带来巨大颠覆。”“Sora生成视频堪比CG。”
+ K% d6 `1 S3 G% C7 K0 O
: Z0 ~5 Y( A# A+ e0 B* ]: B文生视频的AI模型实际早已存在,Sora牛在哪里?答案是,它的语义理解能力更强。
- R: R8 \6 |4 Y% d
6 o2 i' Z# b9 ]- n0 F6 J首先,Sora 能创建出逼真且富有想象力的 60 秒视频;
$ X; }1 z' M4 D/ X# U: N0 x' b' {. f! j
: \7 t6 O: @2 K: B+ J b. g
在这些视频中包含精细复杂的场景、富有情感的角色表情以及复杂的多角度镜头。
) R0 V" A7 h/ n3 Y* `6 w2 [4 g
% \- ?) p0 t7 d1 \# b6 f; E% OOpenAI 官网展现了多段 Sora 制作的视频。
6 s# k6 r" N' y2 Q8 o( v" {, X
其中一个场景为,身着黑色皮衣、红色裙子的女性在雨后的夜晚行走在东京市区街道上。视频背景中,她身后的行人也在走动。而由于下过雨,路面留下积水,在城市彩色灯光的照射下形成镜面效果。
+ h! O0 E4 ~ H% @9 T$ X, h
& I( z' O" U9 f! x5 e" W最震撼的是视频后半段呈现的面部细节,这位女性的皮肤毛孔色沉清晰可见,如此逼真的视频令人很难一眼判断是出自 AI 之手。
) u$ M- B- q( e) h3 s2 v+ L" E
& b2 |5 z: A# i, s4 N- n在一段提示词为“一窝金毛猎犬在雪地里玩耍。它们的头从雪地里蹦出来,浑身都是雪”的视频中,甚至可以看到一粒粒的雪粒。
/ F" S6 p) ?$ q
6 @" D: Y% B/ e其次,Sora 能通过现有的静态图像生成视频;
+ G" Y2 w( L! C- x5 R: S4 E) {
* }2 p$ N( _8 P* j再者,Sora 能延长已生成的视频;
6 S* j" {* h% M0 Q
7 w p; b8 h+ d+ x, ~ l( x* B通俗来讲,给 Sora 一段视频,它可以自动进行扩展、填充缺失内容。
9 I+ v( b9 Z# E1 r
: t' N% W/ k+ I/ l& T更厉害的是,Sora 可以一次性生成不同机位、不同景别视角的视频,并进行剪辑、自动拼接。
6 {! _8 M% w0 B2 B: z
4 L# H# ~/ K. B4 w3 M比如,这组图片展示了人们在下雪天漫步、玩雪的多个角度。可见在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都一致。
4 f) Z- }& [, j E) R4 B
# z# f0 t# `/ J也就是说,仅需要提供一段文字,Sora 模型就可以生成一段长达一分钟的 1080p 视频,且包含不同景别镜头。其逼真程度令人难以置信,很难想象这种级别的生成是通过单次输入的提示词完成的。
* K' t: e( v- ]7 R( t0 d
R' D, D- D& F6 V) j, d v
在官网上已经更新的多个视频实例中,Sora 能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
% ?$ \$ J% e4 S/ }3 ]
( P; C1 B/ {. ^: S
当然,目前的 Sora 模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
; T3 P- \7 h- y0 b$ V2 p! S- K9 d) B9 S% x1 {
举个例子,视频中的人物可能会咬一口饼干,但饼干上却看不到明显的咬痕。当然这并不妨碍它成为目前功能最强大的 AI 工具。
$ T' f) v. D7 |* X
X' Q$ }. I% p# l$ _Sora 为什么这么牛?
* H0 C9 C5 f8 b* s7 B, j1 W8 g; y& m3 l% H6 P& |2 o, q
据悉,Sora 的工作原理结合了扩散模型和 Transformer 架构。扩散模型基于不同时长、分辨率和宽高比的视频和图像训练得来,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,生成具有多个角色、特定运动类型的复杂场景。而Transformer 架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
; r! W6 Q, D: o" G" r
' P: y1 p2 `3 n( T
同时,在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
$ s1 Z& e% N$ R
- ?; G2 _. D* L6 t4 a! A. D1 k& N" G$ nSora 火爆问世,投机者也盯上了这块“蛋糕”。
9 X: M+ l# o4 n: d, A' l! _( l8 X
8 O( j0 {, `* s7 s5 {" x
据报道,在多个电商、社交平台搜索发现,市面上不乏有 Sora 的“教程”“解读”,售价在几元至近百元甚至万元不等。
( N& E+ k' R1 V4 J2 M! j# I; n0 [" q/ `/ y7 ]/ k8 g
所谓的“教程”,要么是在网上能找到的公开资料,比如 Sora 的介绍、生成的视频以及来自其他自媒体的解读文章;要么是分享普通人如何利用 Sora 赚钱,包括售卖 Sora 账号和邀请码、使用 Sora 生产视频做自媒体、制作 Sora 使用教程知识付费、做套壳网站等。至于 Sora 实操干货是没有的,你想为知识付费,但没有知识,全是付费。售卖“教程”的卖课人员可能不懂 AI,但是懂得如何利用 AI 捞金。
8 c9 G0 w& H0 V; }: M1 c5 K: w# U& {' V! W/ o1 X Y- h* s7 J
部分售卖“教程”的人表示拥有“Sora内测资格”,实际上是要用户以“红队测试”的专家(网络实战攻防演练中的攻击方)身份在 OpenAI 官网进行内测申请。
3 _+ i* p5 T0 d" E; V3 U, X& l$ f4 U6 R5 i9 A6 U6 T
但需要注意的是,目前 Sora 暂未对外开放测试权限。
* S: d: z5 q( ]4 J- o ]1 ~$ y( k7 W2 ?5 Q* E
OpenAI 官网显示,“红队”专家可以使用 Sora 评估关键领域的危害或风险。同时还允许一些视觉艺术家、设计师和电影制片人访问 Sora,以获得反馈意见,了解如何改进模型。但 OpenAI 官网显示,本阶段申请已于 2023 年 12 月 1 日截止。
3 t; q y- v4 V- p
" i9 e$ T0 I1 F2 a' I" x4 r7 ZOpenAI 的开发者也提醒,目前尚未推出对 Sora 的访问,大家看到的谈论或提供访问权限的帖子很可能是骗局。
) X: h. _4 u: r7 ?- u: f' @* V; o/ W
& b9 X# m, h% Q+ i
在此提醒大家,Sora 官方并未公布公测时间,任何人跟你说TA用上了 Sora,可以付费教你使用 Sora 生成视频的,都是骗子。
' O! b2 N! R; V; u/ I
- ~1 c$ n) V7 d! X