这是 DeepMind Scaling Book 系列的第 11 部分。

总结 (Conclusions)

How To Scale Your Model Part 11 (Part 10: JAX | Part 12: GPUs)

我们已经走过了漫长的道路,从简单的矩阵乘法 Roofline 模型到在成千上万个 TPU 上训练和部署最先进的 LLM。

感谢您阅读这一系列文章,并祝贺您坚持到了最后。 在我们结束之前,还有一些致谢:

致谢 (Acknowledgments)

这份文档代表了 Google DeepMind 许多人的重大集体投资,我们想简要地感谢他们!

  • James Bradbury, Reiner Pope, 和 Blake Hechtman 最初推导了这份手稿中的许多想法,并且是早期理解 Transformer 系统观点的人。
  • Sholto Douglas 撰写了这份文档的第一个版本,并负责启动该项目。
  • Jacob Austin 领导了将第一个版本从粗略笔记转化为更完善和全面的工件的工作。
  • Charlie Chen 撰写了推理部分并绘制了许多推理图表。
  • Roy Frostig 协助出版、编辑和旅程中的许多其他步骤。

延伸阅读 (Further Reading)

如果您想通过阅读原始论文来深入了解,这里有一些很好的起点:

基础模型 (Foundational Models)

并行与系统 (Parallelism and Systems)

硬件 (Hardware)

其他资源

我们希望这本“书”对你解开大模型的神秘面纱有所帮助。快乐 Scaling!

再次提醒,如果你对 GPU 感兴趣,请查看第 12 节

来源

Conclusions - Part 11