近日,上海电影学院影视工程下奉梦甜老师团队(MAGIC Lab)两项前沿钻研工作《FoleyDesigner: Immersive Stereo Foley Generation with Precise Spatio-Temporal Alignment for Film Clips》与《GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents》成功被推算机视觉国际顶级会议CVPR 2026录用。
CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是中国推算机学会(CCF)推荐的A类国际顶级会议,在推算机视觉与人为智能领域享有极大名誉,持久引领学科发展前沿。据Google Scholar Citation 2025年统计,CVPR的H5-index高达450,位列全球出版物第二,仅次于《Nature》,工程与推算机类出版物第一,泛人为智能领域第一,代表了该领域世界顶尖的钻研水平。
这次两项成就同时入选,不仅体现了团队在“AI+艺术”交叉领域的持续科研创新能力,也标志取上海电影学院正稳步走向国际学术舞台。
FoleyDesigner:让影视声音“沉浸有声”。FoleyDesigner是团队在“AI+电影声音”领域的又一突破。继此前在影视音效(SonicVisionLM, CVPR 2024)与影视配乐(FilmComposer, CVPR 2025)上的工作后,本项目聚焦于电影拟音的智能化天生,致力于推动影视工业进入沉浸式声音新时期。该钻研初次将AIGC技术引入电影立体声拟音创作,通过大模型与多智能体协同,齐全仿照了专业拟音师的工作流程。它可能理解视频内容,自动天生与画面在空间地位、帧级功夫上精准对齐的高品质立体声拟音,并直接输出切合专业尺度的5.1环抱声(杜比全景声混音),可无缝嵌入现实电影后期管线。其主题价值在于:提质,显著提升天生拟音的影视级品质、音画一致性实时空对齐精度;增效,大幅优化后期流程,降低造作成本,同时为声音设计提供高自由度的创作工具。此表,团队开源了高质量电影立体声拟音数据集FilmStereo,蕴含14,784个标注条款,涵盖立体声音频、精确功夫戳、三维空间信息及系统的类别文本描述及 23 个细分领域,为学术社区后续钻研提供了沉要数据基础。

图1:FoleyDesigner蕴含三个重要?椤植阌捌馕觥⑹泳跏璧伎占湟羝岛铣捎攵嘀悄芴逡糁示。用户输入无声视频首先被转化为切合声音设计准则的场景-事务-材质分层剧本;随后在各时段中基于视觉语义进行空间化立体声天生;最终经多智能体协同优化输出5.1环抱声拟音。
FoleyDesigner论文原文、代码和数据集详见项目主页:https://gekiii996.github.io/FoleyDesigner/ 。本论文的学生一作为戴坤延,数字媒体创意工程硕士钻研生二年级在读;学生二作为丁乙,数字媒体技术本科三年级在读;学生三作为倪若冰,数字媒体技术本科三年级在读。
GardenDesigner江南园林的“智能筑景”。GardenDesigner是团队在“AI+艺术场景”方向的持续索求。继戏剧艺术舞台(StageDesigner, CVPR 2025)与影视场景置景(FilmSceneDesigner, AAAI 2026)的智能化天生后,本项目初次将大模型与智能体链技术利用于江南园林的设计与天生,实现了从文本描述到齐全园林场景的智能天生。该系统通过仿照真实园林设计师的思想流程,将水系、曲径、景观布局等传统美学法令编码进推算框架,实现了切合文化逻辑与审美意境的自动设计。用户只需输入单一文本,系统即可在一分钟内天生蕴含齐全布局的园林规划,并输出可用于现实建造的二维领导图。其主题价值在于:降低门槛,让非专业用户也能急剧进行专业级园林创作,极大降低数字建模成本;赋能多领域,天生的场景可直接用于游戏、影视、VR/AR及数字文旅等项目;传承文化,为文化遗产的数字化保留与创新提供智能工具。同时,团队开源了高质量园林资产数据集GardenVerse,蕴含132个带有高清纹理与具体专家知识标注的精密模型,为传统美学数字化与3D天生钻研提供了贵重资源。

图2: GardenDesigner蕴含两个重要?椤植阍傲止菇ㄓ胫肚度胱什季。用户输入首先被转化为切合园林美学准则的地形与蹊径天生参数;随后在各区域中基于园林知识进行资产选择与约束优化布局,最平天生齐全的江南园林。
GardenDesigner论文原文、代码和数据集详见项目主页:https://monad-cube.github.io/GardenDesigner/。本论文的学生一作为杨凡,电子信息硕士钻研生三年级在读;学生二作为熊瑞雪,电子信息硕士钻研生一年级在读;学生三作为范艺严,电子信息硕士钻研生一年级在读。
老师介绍:

李梦甜,工学博士,博士后,现亿万先生MR上海电影学院、上海电影特效工程技术钻研中心讲师(助理教授),MAGIC Lab PI。重要钻研方向为面向影视、游戏与艺术领域的数字内容理解与天生、人机交互、人为智能艺术创作。以第一/通讯作者颁发CCF A/SCI-Q1论文20余篇,国度授权专利多项。主持国天然青年科学基金,上海市科委“科技创新行动打算”面上基金,“CCF-网易雷火结合基金”二期,入选亿万先生MR“青年英才启航打算”。参加国度沉点研发打算、国度社科沉大、国天然面上基金(4项)。担任推算机视觉国际顶级会议及期刊SIGGRAPH、SIGGRAPH Asia、 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、ACMMM、TPAMI等审稿人,The Visual Computer期刊编委。任中国推算机学会CAD/CG专委会执行委员(秘书处成员),图形学与混合现GAME执行委员,CSIG数字娱乐与智能天生专委会、三维视觉专委会、多媒体专委会执行委员,中国电影电视技术学会、中国电影高新技术专业委员会常任委员。