近日,上海电影学院、上海电影特效工程技术研究中心李梦甜课题组(MAGIC Lab)的前沿研究论文《VERTIGO:Visual Preference Optimization for Cinematic Camera Trajectory Generation》(电影级摄像机轨迹生成的视觉偏好优化)被第19届欧洲计算机视觉国际会议(European Conference on Computer Vision,简称 ECCV2026)录用。论文的学生第一作者为2024级硕士研究生陆毓炜,学生第二作者为2022级电影制作专业本科生李菲菲。此项研究得到了国家自然科学基金的支持,法国巴黎综合理工学院助理教授王玺参与合作。
ECCV与CVPR、ICCV并称计算机视觉领域三大国际顶级会议,也是人工智能领域公认的最高水平学术会议之一,每两年举办一届,代表了该领域全球最前沿的研究水平。此次论文录用标志着上海电影学院在“AI+影视”领域的全新突破,代表了学院的科研实力获得国际学术界的高度认可。

图1:VERTIGO后训练算法概览与效果对比
在电影拍摄的过程中,导演与摄影师的协同作业构成了镜头语言精确传达的核心闭环。近年来,生成式 AI 在计算摄影学领域取得了显著突破,已能实现基于文本描述的 3D 摄影机运动轨迹自动生成。然而,目前的瓶颈在于,主流生成模型普遍缺乏一个能够审视视觉美学与构图合理性的反馈机制。这种机制缺位导致了严重的“形式与内容脱节”——模型输出的轨迹虽然在几何空间内表现合理,但在实际渲染阶段却频频暴露出构图缺陷、主体出画、视觉美学匮乏等问题。
VERTIGO 是首个将视觉偏好优化系统性整合进摄影机轨迹生成的框架,开创性地引入了人类导演的审美判断。研究团队通过技术手段,为 AI视频生成模型赋予了一双“审美的眼睛”。这不仅是对摄像机几何轨迹的拟合,更是对电影视觉艺术标准的追求,标志着视频生成从单纯的“路径规划”向更高阶的“美学把控”跨越。
VERTIGO 重构 AI 电影制作的“虚拟制片”流程。它构建了一个前所未有的高速闭环训练体系,彻底打破了传统生成模型“盲拍”的局限。具体而言,实时图形引擎扮演了核心角色。它如同一个高效的预演场,能以比扩散模型快数个数量级的效率,将 3D 轨迹瞬间渲染为 2D 视觉预览。这种极致的速度,让“生成-评估-修正”的训练闭环成为可能。摄影机轨迹生成器充当“摄影师”,接收文本指令,生成3D摄影机运动轨迹;经过电影摄影美学微调的视觉大模型充当“导演”,主动审片,评估镜头的视觉质量;“摄影师”与“导演”进行智能博弈。那么,如何让“导演”客观地评价镜头?VERTIGO创新性地提出了循环语义评分机制,摒弃了传统的给画面简单打一个数字分数的方式,转而让视觉大模型用自然语言去反向描述看到的画面。通过将描述与原始指令在语义空间比对,系统能敏锐捕捉到构图的偏差——正如导演在复盘时指出“这不是我要的感觉”。实验证明,这种基于语义的反馈,是唯一能稳定保留摄影细微差异的评分策略。
在数据层面,研究团队构建 LenScript 数据集,包含 12 万条轨迹、2160 万帧画面,覆盖运动类型、景别、拍摄方向、拍摄角度、画面位置五大电影摄影维度的精细标注,并支持焦距连续控制,是目前规模最大、标注最丰富的镜头轨迹合成数据集。VERTIGO 采用直接偏好优化(DPO)对生成器进行后训练。在几何指标与目前最优方法持平的同时,几乎消除了“角色跑出画框”的顽疾。34位用户实验参与者(含11位电影导演、摄影专业从业者)的评价也一致印证了VERTIGO在构图、指令遵循与视觉美感上的显著优势。
VERTIGO的意义远不止于一项技术突破。它第一次在枯燥的几何轨迹和实际的镜头画面之间建立了联系,让 AI 生成的镜头不再只是“数学上对”,而是“视觉上可用”,把计算电影摄影真正推向了能用的阶段。在 AIGC 内容井喷的当下,VERTIGO 搭建了一条端到端的智能创作流程。其技术特性展现出极强的普适性:对AI 电影与预可视化,实现从文本到镜头的精准转译,降低试错成本;对AI 短剧与漫剧,以近乎零出画率的稳定性,解决批量生产中的构图崩坏难题;对AI 动画,强化动态角色追踪能力,支撑多元风格的艺术表达。
这项成果标志着上海电影学院正式在国际顶尖学术舞台占据了一席之地。在竞争白热化的AI国际顶级会议上,学院输出了高含金量的技术成果,同时清晰地传递了“上电思路”:不追求单纯的算力堆叠与技术炫技,而是坚持让AI技术服务于电影艺术创作的本质需求。这种“技术+艺术”的双重考量,为当前偏向工程的 AI 研究领域,提供了一个兼具实用价值与人文视角的研究思路。
教师介绍:

李梦甜,工学博士,博士后,现欧博app官方上海电影学院、上海电影特效工程技术研究中心讲师(助理教授),MAGIC Lab PI。主要研究方向为面向影视、游戏与艺术领域的数字内容理解与生成、人机交互、人工智能艺术创作。以第一/通讯作者发表CCF A/SCI-Q1论文20余篇,国家授权专利多项。主持国自然青年科学基金,上海市科委“科技创新行动计划”面上基金,“CCF-网易雷火联合基金”二期,入选欧博app官方“青年英才启航计划”。参与国家重点研发计划、国家社科重大、国自然面上基金(4项)。担任SIGGRAPH、CVPR、ICML、TPAMI等国际顶会顶刊审稿人、期刊编委,兼任中国计算机学会(CCF)、中国电影电视技术学会、中国图象图形学学会(CSIG)相关专委会执行委员、常任委员。