您现在的位置是:主页 > 区块链 >

tp钱包下载app|GPT-4 “炼丹”指南:MoE、参数量、训练成本和推理的秘密

2023-10-19 15:01:17区块链 人已围观

简介原创:拾象 来源:海外独角兽 作者:Dylan Patel,Gerald Wong 编译:Haina、wenli、Cage 推荐阅读1 “能让英伟达输很惨的,也就只有美国政府” 3小时前2 AI 时代的Meta,都带来了那些新功能?...

原创:拾象

来源:海外独角兽

作者:Dylan Patel,Gerald Wong

编译:Haina、wenli、Cage

推荐阅读 1

“能让英伟达输很惨的,也就只有美国政府”

3小时前 2

AI 时代的Meta,都带来了那些新功能?

4小时前

编辑:Siqi

图片来源:由无界 AI‌生成

本文编译自专栏 SemiAnalysis,作者是 Dylan Patel 和 Gerald Wong。不久前,Dylan Patel 还爆料过 Google 内部信:We Have No Moat, And Neither Does OpenAI 。

GPT-4 是科学和工程深度结合创新的结果,中间有无数的 tricks,对于外界,如果能了解 GPT-4 的结构就如同获得了最强模型的“炼丹秘方”。这篇内容十分详尽地给出了 GPT-4 的架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、以及 MoE 模型等参数和信息细节。

Dylan 和 Gerald 认为,OpenAI 之所以不公开 GPT-4 的架构,并不是出于所谓 AI Safety 的考虑,而是因为这个架构很容易被复制;被称为“天才黑客”的 George Hotz 也表达过类似观点,不过,George 认为 GPT-4 由 8 个专家模型的 MoE 构成,每个专家模型的参数量约为 1100 个。

两位作者预计,Google、Meta、Anthropic、Inflection、Character.ai、腾讯、字节跳动、百度等公司在短期内将拥有与 GPT-4 一样甚至更强大的模型能力。即便 GPT-4 的架构“很容易被复制”,但在他们看来 OpenAI 拥有最持久的护城河——最多体量的终端用户、领先的工程人才,以及在模型代际变化中的先发优势。

友情提示:文章中的数据来自于原作者的多方收集和研究,尚未经 OpenAI 证实,而 Dylan Patel 的研究普遍被认为可信度很高,可以作为一篇不错的 GPT-4 深度研究材料参考。此外,我们认为文章中易复制的观点可能有些“标题党”的嫌疑,因为除 OpenAI 和 Google 外,目前擅长复杂 MoE 框架训练和推理的科学家很稀缺,且当前的 GPT-4 也只是初代 MoE,并不是 OpenAI 给出的最终答案,并且过程中的大量经验是其他团队没有的,而这些经验一定也会成为 OpenAI 的独特优势。

以下为本文目录,建议结合要点进行针对性阅读。

Tags:

标签云

站点信息

  • 文章统计12456篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们