Sora 2官方提示词指南:从新手到导演的完整教程
OpenAI在2025年9月正式发布了Sora 2提示词指南,这份被称为”AI视频创作圣经”的官方文档,彻底改变了普通人制作视频的方式。无论你是想生成一段15秒的短视频,还是制作电影级别的复杂场景,这份指南都提供了从基础到进阶的完整指导。它不仅仅是技术文档,更像是请了一位专业的电影导演手把手教你如何与AI沟通。
官方指南地址:https://cookbook.openai.com/examples/sora/sora2_prompting_guide(下面有翻译后的版本)

💡 提示词设计的核心思维
把写提示词想象成给一位从没看过你故事板的分镜师做简报。如果你漏掉细节,对方只能自由发挥——结果可能完全不是你想要的样子。
两种有效的创作路径:
- 精准控制型:详细描述每个细节,获得高度符合预期的画面
- 创意探索型:留出空白,让AI用想象力填补,经常带来惊喜
这两种方法没有优劣之分,全看你的创作目标。关键在于把提示词视为创意愿望清单,而不是硬性规定。就像使用ChatGPT时一样,相同的提示词会产生不同结果——这是特色而非缺陷。
🔥 Sora 2官方提示词指南的翻译版本如下:
撰写提示词前的准备
请将撰写提示词视为向从未看过你故事板的首席摄影师进行任务说明。如果你遗漏细节,对方就会即兴发挥——最终成果可能与你预想的截然不同。通过具体说明“镜头”需要达成的效果,你就能赋予模型更强的可控性与连贯性。
但保留一些细节同样具有力量。赋予模型更多创作自由能带来令人惊喜的变体和出乎意料的绝妙诠释。两种方式都行之有效: 详细提示词能赋予你掌控力与一致性,而简洁提示词则为创意成果开辟空间。 如何平衡取决于你的目标和预期效果。请将提示词视为创意愿望清单,而非硬性合同。正如使用 ChatGPT 时那样, 多次使用相同提示词会产生不同结果 ——这是特性而非缺陷。每次生成都是全新演绎,有时第二或第三个版本反而更出色。
最重要的是要做好迭代准备。对镜头、光线或动作的细微调整都可能彻底改变最终效果。与模型协同创作:你负责指引方向,模型负责呈现创意变体。
这并非精密科学——请将以下指南视为我们通过模型实践总结的实用建议。
API 参数
提示词控制视频内容,但某些属性仅通过 API 参数进行调控。您无法在文本描述中请求这些属性,必须在 API 调用中明确设置:
- model:
sora-2
或sora-2-pro
- size:格式为{宽度}x{高度}的字符串。支持的分辨率取决于所选模型:
- sora-2
- 1280×720, 720×1280
- sora-2-pro
- 1280×720, 720×1280
- 1024×1792, 1792×1024
- sora-2
- 时长 :视频片段长度,支持数值:“4”、“8”、“12”。默认值为“4”。
这些参数构成视频的基础框架——分辨率、时长和画质不会因描述性语句(如“延长视频”)而改变。请通过 API 调用明确设置这些参数;其余所有要素(主体、动作、光影、风格)均由您的提示词控制。
视频分辨率
视频分辨率直接影响 Sora 的视觉保真度与运动连贯性。更高分辨率能更精准地呈现细节、纹理和光影过渡,而较低分辨率会压缩视觉信息,通常导致画面柔化或出现伪影。
视频长度
模型在较短片段中通常能更可靠地遵循指令。为获得最佳效果,建议采用简洁的镜头。如果项目允许,通过剪辑将两个4秒片段拼接在一起,可能比直接生成单个8秒片段效果更佳。
有效的提示结构
清晰的提示应如同在故事板上勾勒镜头般描述画面:说明镜头构图,标注景深,分步骤描述动作,并设定光影与色调基调。用几个鲜明细节锚定主体使其易于辨识,而单一合理的动作则让镜头更易于理解。
如果你需要呈现一个连续场景,在单个提示中描述多个镜头也是可行的。采用这种方式时,请确保每个镜头区块保持独立:每次只设定一个机位、一个主体动作和一套布光方案。这让你能灵活生成独立的短片段或连续的长镜头,具体取决于项目需求。将每个镜头视为创作单元,你可以通过剪辑将它们拼接起来,也可以让它们一气呵成地连续呈现。
- 简短的提示会给模型更多创作自由度。请准备好迎接出人意料的效果。
- 冗长细致的提示会限制模型的创造力。它会尽力遵循你的指引,但执行效果未必始终稳定可靠。
以下是一个简短提示的示例:
In a 90s documentary-style interview, an old Swedish man sits in a study and says, “I still remember when I was young.”
这个提示词很可能会效果不错:
90 年代纪录片
设定了视频风格。模型将据此选择镜头焦距、布光方式和调色风格等变量。an old Swedish man sits in a study
简要描述主体与场景,赋予模型在人物形象和环境细节上的创作自由度。and says, "I still remember when I was young."
描述对话内容。Sora 大概率能够精准遵循这段指示。
此提示词能稳定生成符合要求的视频,但可能无法完全契合您的构想,因为诸多细节尚未明确。例如,提示词未描述昼夜时段、天气状况、服装搭配、画面基调、角色外貌与年龄、镜头角度、剪辑节奏、场景设计等要素。若未具体说明这些细节,Sora 将自行补充创作。
极致细节呈现
对于复杂的电影级镜头,您可以超越标准提示结构,使用专业制作术语来指定画面效果、摄像机设置、调色方案、声音景观甚至镜头设计理念。这类似于导演向摄影组或视觉特效团队下达工作指示。关于镜头运用、滤镜效果、布光方式、色彩分级和运动轨迹的详细指引,能帮助模型精准锁定特定的美学风格。
例如,您可以描述观众首先注意到的元素 、 拍摄平台与镜头配置 、 光线方向 、 色彩基调 、 质感特征 、 剧情内声音以及镜头节奏 。当您需要匹配真实摄影风格(如 IMAX 航拍、35 毫米手持拍摄、复古 16 毫米纪录片)或保持镜头间严格连贯性时,这种方法尤为有效。
示例
Format & Look
Duration 4s; 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.
Lenses & Filtration
32 mm / 50 mm spherical primes; Black Pro-Mist 1/4; slight CPL rotation to manage glass reflections on train windows.
Grade / Palette
Highlights: clean morning sunlight with amber lift.
Mids: balanced neutrals with slight teal cast in shadows.
Blacks: soft, neutral with mild lift for haze retention.
Lighting & Atmosphere
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.
Location & Framing
Urban commuter platform, dawn.
Foreground: yellow safety line, coffee cup on bench.
Midground: waiting passengers silhouetted in haze.
Background: arriving train braking to a stop.
Avoid signage or corporate branding.
Wardrobe / Props / Extras
Main subject: mid-30s traveler, navy coat, backpack slung on one shoulder, holding phone loosely at side.
Extras: commuters in muted tones; one cyclist pushing bike.
Props: paper coffee cup, rolling luggage, LED departure board (generic destinations).
Sound
Diegetic only: faint rail screech, train brakes hiss, distant announcement muffled (-20 LUFS), low ambient hum.
Footsteps and paper rustle; no score or added foley.
Optimized Shot List (2 shots / 4 s total)
0.00–2.40 — “Arrival Drift” (32 mm, shoulder-mounted slow dolly left)
Camera slides past platform signage edge; shallow focus reveals traveler mid-frame looking down tracks. Morning light blooms across lens; train headlights flare softly through mist. Purpose: establish setting and tone, hint anticipation.
2.40–4.00 — “Turn and Pause” (50 mm, slow arc in)
Cut to tighter over-shoulder arc as train halts; traveler turns slightly toward camera, catching sunlight rim across cheek and phone screen reflection. Eyes flick up toward something unseen. Purpose: create human focal moment with minimal motion.
Camera Notes (Why It Reads)
Keep eyeline low and close to lens axis for intimacy.
Allow micro flares from train glass as aesthetic texture.
Preserve subtle handheld imperfection for realism.
Do not break silhouette clarity with overexposed flare; retain skin highlight roll-off.
Finishing
Fine-grain overlay with mild chroma noise for realism; restrained halation on practicals; warm-cool LUT for morning split tone.
Mix: prioritize train and ambient detail over footstep transients.
Poster frame: traveler mid-turn, golden rim light, arriving train soft-focus in background haze.
引导视觉效果的视觉提示
在撰写提示词时, 风格是引导模型实现预期效果最有效的手段之一 。通过描述整体美学风格——例如 “1970 年代电影质感”、“史诗级 IMAX 规格场景” 或 “16 毫米黑白胶片”——即可奠定贯穿所有细节的视觉基调。建议在提示词开端确立风格定位,确保模型能够始终保持统一的视觉表达。
同样的场景细节会因风格设定产生截然不同的呈现效果——无论是精致的好莱坞剧情片、手持拍摄的智能手机短片,还是带有噪点的复古广告片。当整体基调确立后,再逐步叠加镜头语言、动态表现与光影细节等具体要素。
清晰制胜。与其使用模糊提示如 “一条美丽的街道”,不如写成 “湿漉漉的沥青路面、斑马线、霓虹灯招牌倒影”;与其说 “快速移动”,不如具体描述 “慢跑三步后在路边停下”。指向可见结果的动词和名词总能带来更清晰、更稳定的输出效果。
弱提示 | 强提示 |
---|---|
“夜晚美丽的街道” | “湿漉漉的沥青路面,斑马线,水洼中倒映的霓虹灯牌” |
“人物快速移动” | “骑行者蹬踏三次,刹车,在人行横道前停下” |
“电影感画面” | “变形宽银幕2.0倍镜头,浅景深,体积光效” |
镜头方向和构图方式决定了画面的观感。俯拍广角镜头会强化空间感与环境氛围,而平视特写则能将注意力聚焦于情感表达。景深运用更添层次:浅景深能让主体在虚化背景中脱颖而出,深景深则保持前景与背景同样清晰。光线同样深刻影响着画面基调——柔和温暖的主光营造亲切氛围,而带有冷峻边缘的单一硬光则瞬间将情绪推向戏剧高潮。
在引入角色时,需预料到一定的不确定性——细微的措辞变化可能改变角色身份、姿态或场景焦点本身。保持各镜头间描述的一致性,复用相同措辞以确保连贯性,避免混用可能产生冲突的特质。
弱提示
Camera shot: cinematic look
强提示
Camera shot: wide shot, low angle
Depth of field: shallow (sharp on subject, blurred background)
Lighting + palette: warm backlight with soft rim
一些优秀的构图指导示例:
- 远景镜头,平视角度
- 全景镜头,从左向右跟拍冲锋场景
- 航拍远景镜头,轻微俯角
- 中近景镜头,后方轻微斜角拍摄
一些优秀的镜头运动指令示例:
- 缓慢倾斜镜头
- 手持式 ENG 摄像机
控制动作与时间节奏
动态表现往往是最难把握的部分,因此要保持简洁。每个镜头应包含一个明确的摄像机运动和清晰的主体动作。用节拍或计数来描述动作效果最佳——比如细微的步态变化、手势或停顿——这样能让动作在时间维度上更具实感。
“演员穿过房间”这样的描述缺乏可操作性。而”演员向窗户迈出四步,稍作停顿,在最后一秒拉开窗帘”这样的表述,则让时间节奏变得精确且可实现。
弱提示
Actor walks across the room.
强提示
Actor takes four steps to the window, pauses, and pulls the curtain in the final second.
光照与色彩一致性
光线与动作或场景同样决定情绪基调。画面中均匀分布的漫射光营造出宁静平和的氛围,而单一强光源则形成鲜明对比与紧张感。当需要拼接多个镜头时,保持光影逻辑的一致性才能实现无缝剪辑。
既要描述光线质感,也要说明强化光感的色彩锚点。避免笼统描述如”灯火通明的房间”,应具体说明光源组合与色调层次:”柔和的窗光配合暖色台灯补光,再点缀走廊透来的冷调边光”。列举三到五种核心色彩有助于保持多镜头间的色系统一。
弱提示
Lighting + palette: brightly lit room
强提示
Lighting + palette: soft window light with warm lamp fill, cool rim from hallway Palette anchors: amber, cream, walnut brown
使用图像输入以获得更多控制
若要对镜头构图与风格实现更精细的掌控,可使用图像输入作为视觉参考。无论是照片、数字艺术作品还是 AI 生成图像皆可适用。通过这种方式可锁定角色设计、服装造型、场景布置或整体美学风格等元素。模型会将输入图像作为起始帧的锚点,而后续内容则由您的文本提示来定义。
如何使用它
在您的 POST /videos 请求中,将图像文件作为 input_reference 参数包含进去。
- 图像必须与目标视频的分辨率(尺寸)相匹配。
- 支持的文件格式包括:
image/jpeg
、image/png
和image/webp
。
使用 OpenAI GPT 图像生成器生成的输入图像 | 使用 Sora 2 生成的视频(已转换为 GIF) |
---|---|
![]() | ![]() |
![]() | ![]() |
实验小贴士
若你尚无视觉参考,OpenAI 的图像生成模型是创建参考素材的利器。你可以快速生成场景与环境设计,再将其作为参考输入 Sora。这是测试美学效果、为视频创作打造精美起点的绝佳方式。
对话与音频
对话内容必须直接在提示词中描述。将其置于散文描述下方的独立区块内,以便模型清晰区分视觉描述与台词对白。保持台词简洁自然,尽量将对话控制在几句话之内,确保时间节奏与视频片段长度匹配。涉及多角色场景时,需统一标注说话人身份并采用交替轮换模式,这有助于模型将每句台词与对应角色的姿态表情准确关联。
你还需考虑节奏与时机:4秒的镜头通常适合一两个简短对话,而8秒的片段则能容纳更多内容。冗长复杂的台词很难完美同步,还可能破坏节奏感。
如果镜头是无声的,你仍可通过细微声响来暗示节奏,比如“远处车流的嘶嘶声”或“清脆的咔嚓声”。不妨将其视为节奏提示,而非完整配乐。
含对白的提示示例:
A cramped, windowless room with walls the color of old ash. A single bare bulb dangles from the ceiling, its light pooling onto the scarred metal table at the center. Two chairs face each other across it. On one side sits the Detective, trench coat draped across the back of his chair, eyes sharp and unblinking. Across from him, the Suspect slouches, cigarette smoke curling lazily toward the ceiling. The silence presses in, broken only by the faint hum of the overhead light.Dialogue:- Detective: “You’re lying. I can hear it in your silence.”- Suspect: “Or maybe I’m just tired of talking.”- Detective: “Either way, you’ll talk before the night’s over.”
背景音效示例描述:
The hum of espresso machines and the murmur of voices form the background.
利用混音功能进行迭代
混音功能用于微调而非碰运气。用它进行可控调整——每次只改一处——并说明具体改动内容:“相同镜头,切换至85毫米焦段”或“相同光线,新配色:青绿、沙色、铁锈红”。当效果接近预期时,将其固定为参考模板,仅描述需要微调的部分。这样既能保留已生效的优质元素,又能实现精准优化。
如果某个镜头总是效果不佳,就回归基础:固定摄像机,简化动作,清理背景。一旦效果正常,再逐步叠加更多复杂元素。
原始视频 | 混剪生成视频 |
---|---|
![]() | ![]() |
![]() | ![]() |
提示词模板与示例
提示词结构
撰写提示词的一个有效方法是,将希望模型使用的各类信息区分开来。这并非放之四海而皆准的成功法则 ,但能提供清晰的框架并提升表达一致性。无需囊括所有细节——若某些内容对画面无影响,尽可省略。
事实上, 保留某些元素的开放性会激发模型展现更强的创造力 。对视觉细节的限定越宽松,模型就越能通过解读生成令人惊喜的独特变体——这些结果往往既出人意料又充满美感。详尽描述会带来更稳定可控的生成效果,而轻量级描述则能解锁更具新意与想象力的多元成果。描述性提示模板:
[Prose scene description in plain language. Describe characters, costumes, scenery, weather and other details. Be as descriptive to generate a video that matches your vision.]Cinematography:Camera shot: [framing and angle, e.g. wide establishing shot, eye level]Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]Actions:- [Action 1: a clear, specific beat or gesture]- [Action 2: another distinct beat within the clip]- [Action 3: another action or dialogue line]Dialogue:[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]
提示词示例
示例 1
Style: Hand-painted 2D/3D hybrid animation with soft brush textures, warm tungsten lighting, and a tactile, stop-motion feel. The aesthetic evokes mid-2000s storybook animation — cozy, imperfect, full of mechanical charm. Subtle watercolor wash and painterly textures; warm–cool balance in grade; filmic motion blur for animated realism.Inside a cluttered workshop, shelves overflow with gears, bolts, and yellowing blueprints. At the center, a small round robot sits on a wooden bench, its dented body patched with mismatched plates and old paint layers. Its large glowing eyes flicker pale blue as it fiddles nervously with a humming light bulb. The air hums with quiet mechanical whirs, rain patters on the window, and the clock ticks steadily in the background.Cinematography:Camera: medium close-up, slow push-in with gentle parallax from hanging toolsLens: 35 mm virtual lens; shallow depth of field to soften background clutterLighting: warm key from overhead practical; cool spill from window for contrastMood: gentle, whimsical, a touch of suspenseActions:- The robot taps the bulb; sparks crackle.- It flinches, dropping the bulb, eyes widening.- The bulb tumbles in slow motion; it catches it just in time.- A puff of steam escapes its chest — relief and pride.- Robot says quietly: “Almost lost it… but I got it!”Background Sound:Rain, ticking clock, soft mechanical hum, faint bulb sizzle.
示例 2
Style: 1970s romantic drama, shot on 35 mm film with natural flares, soft focus, and warm halation. Slight gate weave and handheld micro-shake evoke vintage intimacy. Warm Kodak-inspired grade; light halation on bulbs; film grain and soft vignette for period authenticity.At golden hour, a brick tenement rooftop transforms into a small stage. Laundry lines strung with white sheets sway in the wind, catching the last rays of sunlight. Strings of mismatched fairy bulbs hum faintly overhead. A young woman in a flowing red silk dress dances barefoot, curls glowing in the fading light. Her partner — sleeves rolled, suspenders loose — claps along, his smile wide and unguarded. Below, the city hums with car horns, subway tremors, and distant laughter.Cinematography:Camera: medium-wide shot, slow dolly-in from eye levelLens: 40 mm spherical; shallow focus to isolate the couple from skylineLighting: golden natural key with tungsten bounce; edge from fairy bulbsMood: nostalgic, tender, cinematicActions:- She spins; her dress flares, catching sunlight.- Woman (laughing): “See? Even the city dances with us tonight.”- He steps in, catches her hand, and dips her into shadow.- Man (smiling): “Only because you lead.”- Sheets drift across frame, briefly veiling the skyline before parting again.Background Sound:Natural ambience only: faint wind, fabric flutter, street noise, muffled music. No added score.