您现在的位置是:主页 > 区块链 >
tp钱包下载app|GPT-4 “炼丹”指南:MoE、参数量、训练成本和推理的秘密
2023-10-19 15:01:17区块链 人已围观
简介原创:拾象 来源:海外独角兽 作者:Dylan Patel,Gerald Wong 编译:Haina、wenli、Cage 推荐阅读1 “能让英伟达输很惨的,也就只有美国政府” 3小时前2 AI 时代的Meta,都带来了那些新功能?...
原创:拾象
来源:海外独角兽
作者:Dylan Patel,Gerald Wong
编译:Haina、wenli、Cage
推荐阅读 1“能让英伟达输很惨的,也就只有美国政府”
3小时前 2AI 时代的Meta,都带来了那些新功能?
4小时前编辑:Siqi
图片来源:由无界 AI生成
本文编译自专栏 SemiAnalysis,作者是 Dylan Patel 和 Gerald Wong。不久前,Dylan Patel 还爆料过 Google 内部信:We Have No Moat, And Neither Does OpenAI 。
GPT-4 是科学和工程深度结合创新的结果,中间有无数的 tricks,对于外界,如果能了解 GPT-4 的结构就如同获得了最强模型的“炼丹秘方”。这篇内容十分详尽地给出了 GPT-4 的架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、以及 MoE 模型等参数和信息细节。
Dylan 和 Gerald 认为,OpenAI 之所以不公开 GPT-4 的架构,并不是出于所谓 AI Safety 的考虑,而是因为这个架构很容易被复制;被称为“天才黑客”的 George Hotz 也表达过类似观点,不过,George 认为 GPT-4 由 8 个专家模型的 MoE 构成,每个专家模型的参数量约为 1100 个。
两位作者预计,Google、Meta、Anthropic、Inflection、Character.ai、腾讯、字节跳动、百度等公司在短期内将拥有与 GPT-4 一样甚至更强大的模型能力。即便 GPT-4 的架构“很容易被复制”,但在他们看来 OpenAI 拥有最持久的护城河——最多体量的终端用户、领先的工程人才,以及在模型代际变化中的先发优势。
友情提示:文章中的数据来自于原作者的多方收集和研究,尚未经 OpenAI 证实,而 Dylan Patel 的研究普遍被认为可信度很高,可以作为一篇不错的 GPT-4 深度研究材料参考。此外,我们认为文章中易复制的观点可能有些“标题党”的嫌疑,因为除 OpenAI 和 Google 外,目前擅长复杂 MoE 框架训练和推理的科学家很稀缺,且当前的 GPT-4 也只是初代 MoE,并不是 OpenAI 给出的最终答案,并且过程中的大量经验是其他团队没有的,而这些经验一定也会成为 OpenAI 的独特优势。
以下为本文目录,建议结合要点进行针对性阅读。
Tags:
相关文章
随机图文
-
TokenPocket安卓下载|Trezor 将 SOL 代币和 So
Trezor,史上第一个加密货币硬件钱包品牌, 广告 在您的钱包中实施 Solana 网络... -
将USDT从trc20换为bep20(trc20兑换bep20)
TRC20和BEP20都是USDT的代币标准,分别基于波场和币安链。TRC20格式的USDT运行在波... -
tp钱包官方网址|揭示:为什么加密货币多
BNB 智能链(BSC),之前称为币安智能链,自 2020 年 9 月推出以来已经取得了长... -
tp官网|5ireChain:通过 ESG 驱动的可持续发
在创新与责任相结合的 Web 3.0 动态领域中,5ireChain 作为开拓者脱颖而出,以其...