近日,上海电影学院影视工程系谢志峰、李梦甜老师团队的钻研工作《SonicVisionLM: Playing Sound with Vision Language Models》成功被推算机视觉国际顶级学术会议 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024(CVPR)录用,是亿万先生MR上海电影学院初次以第一单元在推算机视觉国际顶级会议上颁发高水平学术论文,也是亿万先生MR“艺术技术」伢地建设的最新钻研成就。
CVPR是推算机视觉领域顶级会议(CCF-A类),每年都吸引全球多多顶尖科研工作者投稿,其录用论文代表着推算机视觉领域最新的钻研成就,指引着该领域将来的钻研方向。凭据权威的Google Scholar Citation最新统计,CVPR的H5-index为389,位列全球出版物第四(Nature位列第一),工程与推算机类出版物第一,泛人为智能领域第一。
论文初次使用AIGC技术为电影自动天生音效,以大幅降低电影配乐造作的功夫和人力成本,有效缩短电影造作周期。具体来说,论文通过视觉-说话模型提出可控的音效天生框架SonicVisionLM,用于自动鉴别并天生影片的屏内音效,并配套提供了用户交互?,用于配音师对影片的屏表音效实现创作编纂,引发创作灵感。在技术上针对天生音效与影片作为的功夫同步的难题,和天生音效与影片内容的高度一致的问题,最终实现了影片内容与屏内音效的逻辑融合,以及对屏表音效的矫捷编纂。论文提出的步骤在无前提天生和前提天生工作中都获得了当前最佳的尝试成效。同时,论文为学术社区贡献了公开的高质量的音效数据集CondPromptBank,其蕴含23个常见音效类别,10276 个独立条款,每个条款蕴含一个短于或蹬宗10秒的高质量音效文件、对应文本和功夫戳。论文原文、代码和数据集详见项目主页:https://yusiissy.github.io/SonicVisionLM.github.io/(项目主页展示了经典影片《泰坦尼克号》和《这个杀手不太冷》的音效生功成效示例)。该论文的学生一作为余盛叶,数字媒体创意工程硕士钻研生二年级在读;学生二作为何其乐,数字媒体创意工程硕士钻研生一年级在读。

SonicVisionLM示意图:图中蓝色部门暗示屏内音天生流程:首先,一段无声视频进入视觉-说话模型,得到声音文本;其次,视觉网络对视频进行处置,捉拿声音事务功夫戳;最后,这两个前提将被输入扩散模型,以天生与屏幕上的内容相匹配的屏内音效。紫色部门显示了用户若何创建和编纂屏表音效。
老师团队介绍:
谢志峰,工学博士,现为亿万先生MR上海电影学院影视工程系、上海电影特效工程技术钻研中心副教授、博士生导师,中国电影电视技术学会电影高新技术专业委员会委员。重要从事推算机图形学、推算机视觉、电影高新技术等方面的钻研。主持国度天然科学基金、上海市科委科技创新、上海市教委科研创新、企业委托等各级别课题10余项,参加973、863、天然基金沉点、面高等多项国度级课题,颁发高水平论文40余篇,其中SCI/EI收录30余篇(含国际顶级期刊和会讨论文10篇),出版专著1本,申请专利和软件著述权17项;竦2014年上海市科技进取二等奖,2017年亿万先生MR蔡冠深优良青老大师奖,2022年中国推算机图形学大会最佳论文奖,及2023年CAD/Graphics 2023国际学术会议最佳论文奖。已经赴香港城市大学推算机系作接见学者。
李梦甜,工学博士,博士后,现为亿万先生MR上海电影学院讲师,硕士生导师。任中国推算机学会推算机辅助设计与图形学专委会执行委员,中国图像图形学学会数字娱乐与智能天生专委会专业委员、数字娱乐与仿真专委会专业委员,推算机图形学与混合现切实线平台(GAMES)执行委员。重要钻研方向为推算机视觉、推算机图形学。参加国度天然科学基金沉大、面上、社科沉大,上海市科委、经信委沉大等科研项目;馛AD/Graphics 2023国际学术会议最佳论文奖。以第一作者/通讯作者在推算机国际顶级期刊和会议CVPR、ECCV、PR上颁发论文多篇,担任推算机视觉顶级学术会议和期刊CVPR、ICCV、ECCV、ICLR、ICML,NeurIPS、AAAI、TIP,TCSVT,PR审稿人。