当前位置:科学 > 正文

今日快讯:腾讯云发布AI原生向量数据库 欲打破大模型训练的时空限制

2023-07-05 20:09:57  来源:每日经济新闻

每经记者:王帆 每经编辑:杨夏

ChatGPT引发的大模型浪潮,催生了数据存储、检索需求。传统关系型数据库难以处理大规模数据、低时延高并发查询、模糊匹配等需求,但向量数据库能够有效解决这些痛点,因此受到业界青睐。今年5月前后的一个月内,全球有4家向量数据库创业公司获得新融资,国内的相关概念股股价纷纷上涨。


(资料图)

“如果你看好AI,那你就可以看好向量数据库。”7月4日,腾讯云正式发布AI原生(AI Native)向量数据库,腾讯云数据库副总经理罗云在会后接受采访如是表示。罗云认为,向量数据库是大模型和企业数据之间的桥梁,可以打破大模型训练的时空限制,能够被广泛应用于大模型的训练、推理和知识库补充等场景。

《每日经济新闻》记者了解到,目前腾讯云的向量数据库主要在腾讯内部产品进行探索应用。经过腾讯内部海量场景的实践,数据接入AI的效率也比传统方案提升10倍,运行稳定性高达99.99%。不过,从腾讯内部探索,到外部实际的商业化落地,尚需时间。

图片来源:视觉中国(图文无关)

成为大模型和企业数据的桥梁

向量数据库专门用于存储和查询向量数据,业界称之为大模型的“海马体”。

西南证券今年6月发布的研报指出,与传统数据库相比,向量数据库使用向量化计算,能够高速地处理大规模的复杂数据;并可以处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点;同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。

7月4日,腾讯云正式发布AI原生(AI Native)向量数据库Tencent Cloud VectorDB。在发布会上,腾讯方面表示,腾讯云向量数据库最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力、向量数据库能解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,突破大模型在时间和空间上的限制,加速大模型落地行业场景。

发布会后,腾讯云数据库副总经理罗云在接受包括《每日经济新闻》记者在内的媒体采访时表示:“模型的训练有时间和空间两个限制。在时间上,训练一次大模型可能耗时数月,耗费上千万美金,成本高昂,但(由于预训练的模式)很难把最新的数据灌注到大模型里,而客户有时需要使用最新的数据;在空间上,客户有很多私域的数据,(出于对安全的顾虑)客户往往不愿意放在公开的场合让大模型进行训练,甚至连微调都不愿意把数据给到大模型的厂商。向量数据库则很好地打破了这两个限制。”

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。

腾讯云推出向量数据库的背后,是大模型训练对数据的强大需求。罗云表示:“随着大模型的成熟,未来我们可能不再需要雇佣那么多资深的软硬件工程师,企业或许能够更好地享受到大模型抹平技术差异带来的红利。因此,我们认为企业和企业之间在未来很长的一段时间的竞争会在数据上,谁能够更好地利用数据,谁能够更好地把数据沉淀到自己的工程里面,更好地让数据接入到大模型和整个AI体系,谁可能就会赢在将来。”

商业化尚在初期

今年5月前后的一个月内,全球有4家向量数据库创业公司获得新融资,其中,Pinecone完成1亿美元B轮融资,WeaviateBV获得5000万美元B轮融资,Chroma获得1800万美元种子轮融资,Qdrant获750万美元种子融资。在国内A股市场,今年3月以来,云创数据(BJ835305,股价18.84元,市值25亿元)、星环科技(SH688031,股价139.76元,市值169亿元)、拓尔思(300229.SZ,股价25.79元,市值205.11亿元)等多个向量数据库概念股迎来股价上涨。

“很多客户和我们提需求,基本上每天不止1到2个客户前来咨询向量数据库什么时候能够给他们使用。整体来讲,大家的关注度,对向量数据库需求的迫切度都很高。”罗云说道。

一边是概念火热和需求高涨,一边是商业化进程有待成熟。西南证券研报指出,目前整个向量数据库的赛道仍处于培育阶段,受AI大模型热潮催化,向量数据库刚刚引起国内市场的关注,目前主要使用者是互联网巨头公司。赛道目前处于群雄并起的阶段,从融资、技术的角度上来讲,目前尚未有寡头角色出现。

而对于腾讯而言,腾讯云向量数据库目前已在腾讯内部产品进行探索应用,如腾讯视频、QQ浏览器、QQ音乐等30多款国民级产品。以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。此外,使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。

“现在向量数据库是跟着AI的浪潮来走,我们的判断是向量数据库本身能力已经比较能够适应客户的诉求,但大家对于怎么去用好AI、国内大模型发展的时间点这些都还需要一个时间周期,这是外部的市场环境导致的。随着AI进一步渗透到各行各业,我相信向量数据库的发展会来得很快了。”罗云最后表示。

每日经济新闻

关键词:

推荐阅读

月壤形成的主要原因 月壤与土壤有什么区别

月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】

域名抢注是是什么意思?投资角度来看什么域名好?

域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】

捷达保养费用是多少?捷达是哪个国家的品牌?

捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】

四部门明确App收集个人信息范围 个人信息保护范围判断标准

四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】

相关新闻

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有