您现在的位置是：主页 > 区块链 >

tp钱包下载app|GPT-4 “炼丹”指南：MoE、参数量、训练成本和推理的秘密

2023-10-19 15:01:17区块链人已围观

简介原创：拾象来源：海外独角兽作者：Dylan Patel，Gerald Wong 编译：Haina、wenli、Cage 推荐阅读1 “能让英伟达输很惨的，也就只有美国政府” 3小时前2 AI 时代的Meta，都带来了那些新功能？...

原创：拾象

来源：海外独角兽

作者：Dylan Patel，Gerald Wong

编译：Haina、wenli、Cage

推荐阅读 1

“能让英伟达输很惨的，也就只有美国政府”

3小时前 2

AI 时代的Meta，都带来了那些新功能？

4小时前

编辑：Siqi

图片来源：由无界 AI‌生成

本文编译自专栏 SemiAnalysis，作者是 Dylan Patel 和 Gerald Wong。不久前，Dylan Patel 还爆料过 Google 内部信：We Have No Moat, And Neither Does OpenAI 。

GPT-4 是科学和工程深度结合创新的结果，中间有无数的 tricks，对于外界，如果能了解 GPT-4 的结构就如同获得了最强模型的“炼丹秘方”。这篇内容十分详尽地给出了 GPT-4 的架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、以及 MoE 模型等参数和信息细节。

Dylan 和 Gerald 认为，OpenAI 之所以不公开 GPT-4 的架构，并不是出于所谓 AI Safety 的考虑，而是因为这个架构很容易被复制；被称为“天才黑客”的 George Hotz 也表达过类似观点，不过，George 认为 GPT-4 由 8 个专家模型的 MoE 构成，每个专家模型的参数量约为 1100 个。

两位作者预计，Google、Meta、Anthropic、Inflection、Character.ai、腾讯、字节跳动、百度等公司在短期内将拥有与 GPT-4 一样甚至更强大的模型能力。即便 GPT-4 的架构“很容易被复制”，但在他们看来 OpenAI 拥有最持久的护城河——最多体量的终端用户、领先的工程人才，以及在模型代际变化中的先发优势。

友情提示：文章中的数据来自于原作者的多方收集和研究，尚未经 OpenAI 证实，而 Dylan Patel 的研究普遍被认为可信度很高，可以作为一篇不错的 GPT-4 深度研究材料参考。此外，我们认为文章中易复制的观点可能有些“标题党”的嫌疑，因为除 OpenAI 和 Google 外，目前擅长复杂 MoE 框架训练和推理的科学家很稀缺，且当前的 GPT-4 也只是初代 MoE，并不是 OpenAI 给出的最终答案，并且过程中的大量经验是其他团队没有的，而这些经验一定也会成为 OpenAI 的独特优势。

以下为本文目录，建议结合要点进行针对性阅读。

Tags：

上一篇：tp钱包安卓版下载|BNB 期货未平仓合约飙升和监管困境打压了山寨币的价格

下一篇：tokenpocket下载ios|谷歌浏览器地址栏有五项重大更新