碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来
这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型,突然成为了hugging face“开源”大模型排行榜的第一名。
【资料图】
这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中,LLaMA的模型规模甚至更大,达到了65B——比Falcon-40B大出了50%。
按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。
Hugging Face过去一直被认为是大模型领域GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单,被从业者给予了很高的参考价值。
按照Hugging Face方面表示,其整个榜单使用Eleuther AI Harness的评估框架,被分成四个标准:
而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的instruct版本中,诚实性能力也跟上来了。
Falcon备受外界关注,原因主要有几点。
一方面,如果仅以这个榜单数据来看,Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内,但Falcon-instruct直接提升了3.4分。
另一方面,Falcon与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。
TII的背后则是阿布扎比先进技术研究委员会(ATRC),因此是阿联酋政府官方扶持技术创新项目。
而根据阿联酋通讯社的报道,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于OpenAI GPT-3训练计算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B训练计算的80%。
阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B的出现:
“强化了阿联酋作为全球AI领导者的角色”。
目前来说,Falcon-40B虽然是开源大模型的第一名,但是和“不Open”的OpenAI相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon获得“开源大模型第一”其实也算是“捡了个漏”。
不过很快有从业者发推特质疑Hugging Face的评价体系。
有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉AI负责人、OpenAI元老级人物(founding member)Andrej Karpathy跟进评论:
“这就是我目前避免评论falcon的原因”。
Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家,对OpenAI的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉autopilot之父。
当他对hugging face的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。
果然hugging face联合创始人Thomas Wolf闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。
这其中诡异的点在于,hugging face的榜单不是一天发出的,Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后,却出现了两位对评价体系“不理解”、“不确定”的“外宾”。
看来硅谷还不是很适应来自中东的神秘科技力量,对这种“新鲜事物”条件反射地用审视的眼光去打量。
不过,Falcon-40B最大的争议或许不是来自于能力,而是来自于其对“开源”事业的“诚心”。
因为Falcon对商业化开源留了一个“后手”,虽然使用者原则上免费,但如果收入超过100万美金,依然需要缴纳10%的授权费用。
但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果falcon拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的“开源”。
大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。
而根据TII方面的消息,阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。
无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。
图片来源:网络
关键词:
推荐阅读
验钞机什么牌子好?验钞机的价格介绍
验钞机什么牌子好?康艺康艺始于1994年。是行业标准的起草单位,其产品人民币外币柜台 清分机 复点机 捆钞机 扎把机 取款箱是研发康艺专业生 【详细】
苹果秋季发布会正式官宣 iPhone 12系列手机有什么型号?
苹果秋季发布会正式官宣昨晚,苹果正式宣布了秋季发布会的时间,线上会议将于9月16日凌晨1点举行。这也是今年在苹果举行的第二次线上会议, 【详细】
高岭土是什么?高岭土主要应用在哪些领域?
高岭土是什么?高岭土是一种非金属矿物,是一种粘性的土和粘性的土岩,主要由高岭石族的粘土矿物组成,有黏土和黏土岩。因其白色细腻,又叫 【详细】
南北两极同时出现极端高温 为什么两极会比较寒冷?
南北两极同时出现极端高温南极洲多个考察站本月(3月)18日测得创纪录高温。其中,康科迪亚南极考察站测得-11 5℃,较往年同期平均水平高出约 【详细】
射干每亩种多少斤? 射干的种植技术有哪些?
射干每亩种多少斤?1 每亩成本:租金500元,肥料200元,种子(3公斤)360元,机械化40元,机械化播种20元,机械化收获150元,地膜40元,人工20 【详细】
相关新闻
- 碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来
- 红米Note12T Pro不香!红米K60E:你才是最佳选择!
- iPhone 14迎来新低价,256G又降了1150元,是个好机会
- 性能优秀,亿级像素,OPPO K11x体验
- 国际关注!吉林大学成功解决这“两大难题”,成果最新登顶《科学》!-热门
- 世界最资讯丨一小时十公里什么水平(1小时跑10公里,0.75公里要多久)
- 三国战神威力加强版(三国战神OL) 环球头条
- 每日速讯:瓯海发出首笔数字人民币工资 助推财政数字化转型
- “企业服务日”专为企业解难题 世界新动态
- 少年志|这个“雪域少年”你值得认识_当前热议
- 当前视讯!共享亲子时光 “惠”聚最美瞬间
- 当前观察:618狂欢节到啦!亲亲这边建议您购买以下几款最强旗舰机呢!
- 双屏YOTA3,电子水墨屏适合喜爱阅读的你
- 新动态:商务本和轻薄本有何区别?商务本的价值又在哪里?
- 联想YOGA S940 搭载全球首款3D曲面玻璃 畅享视界 天天百事通
- 天天热推荐:罗技Slim Folio Pro键盘保护套,连苹果原厂生产的键盘都干掉!
- 财富刚被马斯克超越,前世界首富也要访华!黄仁勋也要来...外企高管扎堆来中国,什么信号?|环球热推荐
- OPPO Reno10 Pro+图赏:配置升级,大幅改善4K价位手机体验-天天亮点
- 当前关注:千元预算为什么选择OPPO K11x?4年流畅不卡顿还支持1亿拍照
- 斯坦福大学免疫学家:外星人已访问地球并仍然存在我们却未意识到