这两天 hugging face 的榜单出现了一个异数。一个名为 Falcon 40B 的模型,突然成为了 hugging face" 开源 " 大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的 LLaMA、新晋明星独角兽 Stability AI 等公司。其中,LLaMA 的模型规模甚至更大,达到了 65B ——比 Falcon-40B 大出了 50%。

按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。Hugging Face 过去一直被认为是大模型领域 GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是 OpenAI 最具潜在挑战能力的平台。因此 Hugging Face 的榜单,被从业者给予了很高的参考价值。

按照 Hugging Face 方面表示,其整个榜单使用 Eleuther AI Harness 的评估框架,被分成四个标准:


(相关资料图)

25 个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10 个样本的尝试推理测试(HellaSwag)、5 个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)

而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的 instruct 版本中,诚实性能力也跟上来了。

Falcon 备受外界关注,原因主要有几点。

一方面,如果仅以这个榜单数据来看,Falcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以内,但 Falcon-instruct 直接提升了 3.4 分。

另一方面,Falcon 与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon 背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。

TII 的背后则是阿布扎比先进技术研究委员会 ( ATRC ) ,因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道,Falcon-45B 使用了 1 万亿个 token 进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于 OpenAI GPT-3 训练计算的 75%,DeepMind Chinchilla 人工智能的 40%,谷歌 PaLM-62B 训练计算的 80%。

阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B 的出现:

" 强化了阿联酋作为全球 AI 领导者的角色 "。

目前来说,Falcon-40B 虽然是开源大模型的第一名,但是和 " 不 Open" 的 OpenAI 相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon 获得 " 开源大模型第一 " 其实也算是 " 捡了个漏 "。不过很快有从业者发推特质疑 Hugging Face 的评价体系。

有 Inflection AI 员工发推认为 Hugging Face 得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉 AI 负责人、OpenAI 元老级人物(founding member)Andrej Karpathy 跟进评论:

" 这就是我目前避免评论 falcon 的原因 "。

Andrej Karpathy 曾经是李飞飞的高徒、全球顶尖的 AI 科学家,对 OpenAI 的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉 autopilot 之父。

当他对 hugging face 的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。

果然 hugging face 联合创始人 Thomas Wolf 闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。这其中诡异的点在于,hugging face 的榜单不是一天发出的,Eleuther AI Harness 也是一个主流的评价体系。但当 Falcon 冲榜后,却出现了两位对评价体系 " 不理解 "、" 不确定 " 的 " 外宾 "。

看来硅谷还不是很适应来自中东的神秘科技力量,对这种 " 新鲜事物 " 条件反射地用审视的眼光去打量。

不过,Falcon-40B 最大的争议或许不是来自于能力,而是来自于其对 " 开源 " 事业的 " 诚心 "。

因为 Falcon 对商业化开源留了一个 " 后手 ",虽然使用者原则上免费,但如果收入超过 100 万美金,依然需要缴纳 10% 的授权费用。

但由于 falcon 的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果 falcon 拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的 " 开源 "。

大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。

而根据 TII 方面的消息,阿联酋方面预计将很快发布新的 Falcon-108B 的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。

图片来源:网络

推荐内容