每日报道:Meta开源多感官AI模型,文本、音频、图像6种模态内容随意生成
微软、谷歌在AI领域打的火热,国内科技公司也没闲着,一款款大模型陆续推出…这波国际AI竞赛中,Meta却像隐身了一样,就连上周白宫邀请科AI领域领先公司CEO会面,Meta也不在列。
不过这次,Meta开源的跨感官AI模型可谓是刷足了存在感。Meta的ImageBind模型可以同时绑定文本、图像和视频、音频、热点图、IMU(惯性测量单元)和深度数据六种感官数据,这也是全球首个开源的多感官AI模型。
多模态AI模型,让AI的回答更有“想象力”
据官方介绍,ImageBind通过学习将多个感官输入绑定在一起,无需明确的监督。它可以支持来自六种模态中任何一种的输入,从而实现基于音频的搜索、跨模态搜索、多模态算法和跨模态生成。
(相关资料图)
简单的说就是可以根据音频创建图像,也可以通过图像生成文本和音频。比如输入火车开动的声音就能生成火车进站的图像或视频。输入一张鸟类的照片加引擎声的音频,就能生成一张“鸽子在摩托车周围飞”的图片。
对人类来说,我们可以通过查看汽车模型的照片想到发动机的声音,听到街上熙熙攘攘的声音想到车水马龙的画面,这是因为人的感官是互通的。然而在目前的AI大模型领域,还没有一款能够做到感官互通的产品,即使是ChatGPT、Midjourney等工具也都是在文本或图像生成一方面被广泛应用。
Meta通过将六种模态的嵌入对齐到一个公共空间,让ImageBind可以跨模态检索未同时观察到的不同类型的内容,添加来自不同模态的嵌入以自然地组合它们的语义,以及通过音频到图像的生成使用我们的音频嵌入和预训练的DALLE-2解码器来处理CLIP文本嵌入。
在论文中,研究人员描述称ImageBind可以胜过任意一种针对特定模态单独训练的“专家”模型。最重要的是,它通过使机器能够更好地分析多种不同形式的信息来帮助推进人工智能。
典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量)。ImageBind表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。
ImageBind是Meta致力于创建多模态AI系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind为研究人员打开了尝试开发新的整体系统的闸门,例如结合3D和IMU传感器来设计或体验身临其境的虚拟世界。
ImageBind能做什么?
在演示中,Meta展示了ImageBind通过不同感官数据生成其他类型文件的功能。
比如选择狗狗的图片就能得到对应狗叫的音频,选择老虎或小鸟的图片也能得到相对应的声音。
使用音频检索图像时,选择鸟儿唱歌的声音就能得到小鸟的图片,选择狗叫、火车运行也能快速生成符合音频内容的图片。
Meta还支持用一种数据生成两种或两种以上的内容,比如使用文本检索图像和音频,选择“鼓”、“喵喵叫”、“火车”等关键词可以一下得出音频和图像两种回答。
除了以上的几种例子,还可以选择用音频和图像检索图片,用音频生成图片等等模式。
Meta研究人员表示:“图像对齐的自监督学习表明,我们的模型的性能实际上可以通过使用很少的训练示例来提高。我们的模型具有新的紧急能力,或扩展行为——也就是说,在较小的模型中不存在但出现在较大的版本中的能力。这可能包括识别哪些音频适合特定图像或预测照片场景的深度。”
在实验中,Meta使用了ImageBind的音频和深度编码器,并将它们与零镜头检索以及音频和深度分类任务中的先前工作进行了比较。基于基准测试,ImageBind在音频和深度方面优于专业模型。
ImageBind能够使用多种模式进行输入查询并检索其他模式的输出,为创作者展示了新的可能性。人们甚至可以根据音频分割和识别图像中的对象,可以通过将静态图像与音频提示相结合来从静态图像中创建动画。
Meta表示,虽然在当前的研究中已经探索了六种模式,但他们相信,引入连接尽可能多的感官(如触觉、语音、嗅觉和大脑fMRI信号)的新模式将使以人为中心的人工智能模型更加丰富。
与OpenAI的选择相反,虽然ImageBind还没有正式面向用户开放使用,但它的项目代码已在GitHub开源,目前已收获了4.4kStar。
尽管在目前的AI研究和商业成就方面Meta处于竞争劣势,但它一直坚定地站在开源阵营中,这种方式有助于第三方帮助检查错误并改善系统,甚至可能为Meta带来更多商业利益。
关于多模态学习,还有很多东西有待发现。AI研究界尚未有效量化仅出现在较大模型中的缩放行为并了解它们的应用。ImageBind是朝着以严格的方式评估它们并展示图像生成和检索中迈出的全新一步。
关键词:
推荐阅读
DART小行星任务已开始 有6次自我毁灭航天器介绍
DART小行星任务已开始斯科特·博尔顿曾与两艘飞船合作,这两艘飞船以确保陆地微生物永远无法在太阳系外站稳脚跟的名义自我毁灭。冒着最恶劣 【详细】
十大日系车排名 日系车有怎样的优缺点?
十大日系车排名雷克萨斯UX雷克萨斯UX,官方宣称为紧凑型SUV,但实际上它只是一款小型SUV。UX和C-HR都采用TNGA架构,因此具有很好的可操作性 【详细】
非晶硅薄膜电池的起源 非晶硅薄膜电池优点有哪些?
非晶硅薄膜电池的起源非晶硅薄膜太阳能电池由Carlson和Wronski于20世纪70年代中期成功开发,80年代生产达到高潮,约占全球太阳能电池总量的 【详细】
苹果官网回收旧手机 苹果手机回收注意事项
苹果官网回收旧手机现在很多地方都能回收手机,再生资源回收利用是可以的。苹果是一家非常强大的公司,苹果的手机在国内用户中非常受欢迎。 【详细】
世界十大数码相机排名 世界十大数码相机品牌汇总
世界十大数码相机排名 世界十大数码相机品牌汇总1、佳能Canon佳能在光学领域处于领先地位,自1937年开业至今已有70多年的历史。佳能以积极 【详细】
相关新闻
- 每日报道:Meta开源多感官AI模型,文本、音频、图像6种模态内容随意生成
- 天天快播:智能化在寿险业务员展业活动中的应用价值
- dido F50S Pro智能大屏血糖血压智能手环,时刻守护你的健康_世界播报
- 阿维塔11赢得用户认可,4月大定订单2151台彰显硬核实力-天天观天下
- 防水骨传导耳机鲸语 Alpha 开售,首发 498 元-天天热文
- 多家银行调整两类存款利率
- 男子猝死倒在医生面前2分钟被救
- 程序员要想不失业,只能用AI打败AI 给老板装私有AI,privateGPT_焦点精选
- 【独家焦点】果然,夏普已经沦为最强洋垃圾
- 5月预告:新机不断,期待618
- 聊聊哲库大锅端背后一些不为人知的半导体内幕
- 天天热讯:零售业何去何从?国美电器的123
- 全国会计资格评价网报名系统中级2023
- 小度智能灯泡的使用方法 小度功能灯泡
- 鹏博士收购长城宽带 鹏博士收购长城宽带为什么?
- 聚焦数据价值:推动制造业数字化转型进一步走深向实|焦点简讯
- 世界最新:东方测控王浩:五大层面推进选煤厂智能化建设
- 山东将实体经济作为建设绿色低碳高质量发展先行区的重要抓手
- 全球快资讯:瓦轴集团获多项国家实用新型专利授权
- 中信重工成功锻造国内最大规格的水力发电专用锻件 世界热文