当前位置:科学 > 正文

巨大飞跃!国产视频处理技术火出圈:国外网友直呼不敢相信

2023-08-24 14:09:41  来源:假装嗨皮

近日,由蚂蚁技术研究院交互智能实验室打造的最新视频处理算法CoDeF,在全球开源平台GitHub上热度飙升,发布仅一周时间就在GitHub流行趋势榜单上的Python语言分类中冲到了第一。


【资料图】

据悉,CoDeF是一项真实时、强细节、高保真的视频处理技术,用于完成视频风格迁移任务。

实验表明,CoDeF技术能够毫不费力地将图像风格化算法升级为视频风格化算法,将图像关键点检测算法升级为视频关键点跟踪算法(甚至包括水和烟雾等非刚性物体的追踪),将图像语义分割算法升级为视频物体跟踪算法,将图像超分算法升级为视频超分算法,同时支持用户可交互的视频内容编辑。

近年来,随着以图像生成、图像编辑等任务为代表的视觉内容生成领域取得突破性进展,视觉生成正向着视频方向发展。特别是真实应用场景下,人们对视频的实时性、流畅性、保真度等方面提出了更高要求。目前的主流算法多受限于生成视频时序一致性较差的问题,导致其生成效果无法直接在真实场景中应用。

为了解决这一问题,蚂蚁技术研究院的研究员们提出了一种全新的解决思路——将视频处理简化为图像处理。

具体来说,将视频表示为一个2D内容规范场(canonical content field)和一个3D时间形变场(temporal deformation field),其中内容规范场负责整合一段视频中包含的所有纹理信息,而时间形变场则负责建模视频里的动态信息。换言之,每一帧视频都利用这个形变场对内容规范场所编码的的规范图像(canonical image)进行变形,就可以恢复出该帧图像。

基于这种表征技术,视频处理任务可以简化为图像处理任务,用户只需要处理每个视频对应的静态规范图像,然后通过形变场的变换,就可以将图像处理结果自然地沿着时间维度进行传播,达到对整个视频处理的目的,也因此保证了高度的时序一致性。

值得一提的是,研究者们设法尽量降低规范图像和真实图像的域差(domain gap),使得现有的图像算法可以不加任何训练地应用到规范图像上,完成视频处理。

该技术在GitHub发布并开源后,不仅在技术圈影响广泛,在Twitter平台也“火”出了圈。不少Twitter网友直呼“不敢相信!”、“这是一个巨大的飞跃!”,还有人说“只需给它一年时间,就能被用在电影制作上了”。

据悉,这项技术是由蚂蚁集团技术研究院交互智能实验室历时三个月时间完成。项目主要负责人是蚂蚁技术研究院交互智能实验室研究员沈宇军,其主要研究方向为计算机视觉和深度学习。

项目的另外三位主要作者分别为香港科技大学的博士生欧阳豪、蚂蚁技术研究院的王秋雨、和浙江大学的博士生肖宇曦,其中第一名和第三名参与者当下为蚂蚁集团的研究型实习生。

自2021年成立以来,蚂蚁技术研究院一直致力做有用、有想象力的科研。面向数字化、智能化未来,瞄准世界科技前沿,推进关键核心技术攻关。

其中,交互智能实验室主要聚焦计算机视觉和自然语言处理方向的基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字化、人机交互等关键技术。

本文来源:快科技

关键词:

推荐阅读

月壤形成的主要原因 月壤与土壤有什么区别

月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】

域名抢注是是什么意思?投资角度来看什么域名好?

域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】

捷达保养费用是多少?捷达是哪个国家的品牌?

捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】

四部门明确App收集个人信息范围 个人信息保护范围判断标准

四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有