Andrej Karpathy 2026/03/07 21:43 发布于 Mon, 14 Mar 2022 07:00:00 +0000

Deep Neural Nets: 33 years ago and 33 years from now

学术研究

深度学习神经网络反向传播 PyTorch 历史回顾

AI 详细总结

这篇文章由Andrej Karpathy撰写，主要内容是对Yann LeCun等人1989年发表的论文《Backpropagation Applied to Handwritten Zip Code Recognition》进行回顾和复现。主要观点包括：1）该论文具有重要的历史意义，是首个将反向传播应用于端到端神经网络训练的现实世界应用；2）论文使用了小型数据集（7291张16x16灰度数字图像）和小型神经网络（仅1000个神经元）；3）这篇33年前的论文结构与现代深度学习论文惊人相似，包括数据集描述、神经网络架构、损失函数、优化方法和实验结果报告；4）Karpathy使用PyTorch复现了该论文，代码托管在GitHub仓库karpathy/lecun1989-repro；5）原始网络使用Lisp实现，基于Bottou和LeCun 1988年的反向传播模拟器SN（后更名为Lush）；6）现代深度学习库采用三层架构设计：快速Tensor库（C/CUDA）、自动求导引擎、高级脚本API（Python）；7）训练速度对比：原始训练在SUN-4/260工作站上需要3天，在MacBook Air M1上仅需约90秒，实现约3000倍加速；8）有趣的是，在A100 GPU上运行反而更慢，因为网络规模太小，无法充分发挥GPU优势。文章通过这个复现案例深入探讨了深度学习领域33年来的进步本质。

查看原文