【新智能介绍】GPT-4远不止1万亿,其实它是由8个参数组成的混合专家模型,有2200亿个参数。

各位1.76,GPT-4 的参数可能超过 1 万亿个!

近日,美国知名黑客霍兹在接受采访时透露,GPT-4由8个220B模型组成。

因此,8 x 220B = 1.76万亿。

就连的创始人也深信这一点。

GPT-4:使用不同的数据/任务分布和 16 迭代推理训练的 8 x 220B 专家模型。

如果真是这样的话,GPT-4 的训练可能会更有效。

1.76万亿“八头蛇”?

在GPT-4发布之前,GPT-3就有1750亿个参数,也有不少网友猜测GPT-4至少会有1万亿个参数。

在接受 Space 采访时,对 GPT4 架构的描述确实令人震惊。

以下是他的部分原文:

GPT-4 每个模型有 2200 亿个参数,是一个 8 路混合模型。所以,当你没有想法时,你就会使用混合模型。他们对同一个模型进行了 8 次训练,并且有一些技巧。他们实际上进行了 16 次推理。

他特别强调,他已经创建了八种混合专家模型,任何人都可以用八倍的资金进行训练。

也就是说,人们可以花更长的时间训练更小的模型,经过微调后就能找到这些技巧。

我曾经发表过类似的关于如何在保持计算量不变的情况下让训练效果更好的论文,类似于和。

我们先来看看Hotz的详细介绍视频:

网友热评

如上所述,这是 8 个较小的模型,如果您有足够的钱来训练 8 个混合模型,这是一个简单的解决方案。

因此,GPT-4 比 GPT-3 好 10 倍,并且 1 月份的所有那些小圆圈大圆圈模因实际上都是……真的吗?!

得知这个秘密后,网友们计划自己训练一个 LLaMA 集成来与 GPT-4 竞争。

也有网友表示,这有点像LLM-。

我听到一些可信的传言说 GPT-4 将成为 MoE,但从未得到证实。MoE 和约 1 万亿个参数不会让我感到惊讶,这听起来非常合理。

有网友也进行了深入分析:

说实话,我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务上的表现比一般模型好得多。

因此,将许多特定任务模型组合在一起将是下一步合乎逻辑的步骤。这几乎会使系统升级比一次只处理一个模型容易得多。

话虽如此,但这种方式在未来可能实现,也可能不实现。显然,组合系统可能会有更多小模型,而不是几个大模型。

如果这是真的,这是否意味着每个 220B 模型也具有 32K 的上下文长度?

网友们花了一番功夫,给它取名为“Hydra”。

参考:

#

未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处天心神途传奇手游发布网

原文地址:《1.76 GPT-4 参数最新信息! 1.76万亿参数、8.22 万亿 MoE 模型,PyTorch 创始人信服》发布于:2024-08-21

发表评论

表情:
验证码
评论列表 (暂无评论,36人围观)

还没有评论,来说两句吧...