Deep Neural Nets: 33 years ago and 33 years from now
学术研究AI 详细总结
这篇文章由Andrej Karpathy撰写,主要内容是对Yann LeCun等人1989年发表的论文《Backpropagation Applied to Handwritten Zip Code Recognition》进行回顾和复现。主要观点包括:1)该论文具有重要的历史意义,是首个将反向传播应用于端到端神经网络训练的现实世界应用;2)论文使用了小型数据集(7291张16x16灰度数字图像)和小型神经网络(仅1000个神经元);3)这篇33年前的论文结构与现代深度学习论文惊人相似,包括数据集描述、神经网络架构、损失函数、优化方法和实验结果报告;4)Karpathy使用PyTorch复现了该论文,代码托管在GitHub仓库karpathy/lecun1989-repro;5)原始网络使用Lisp实现,基于Bottou和LeCun 1988年的反向传播模拟器SN(后更名为Lush);6)现代深度学习库采用三层架构设计:快速Tensor库(C/CUDA)、自动求导引擎、高级脚本API(Python);7)训练速度对比:原始训练在SUN-4/260工作站上需要3天,在MacBook Air M1上仅需约90秒,实现约3000倍加速;8)有趣的是,在A100 GPU上运行反而更慢,因为网络规模太小,无法充分发挥GPU优势。文章通过这个复现案例深入探讨了深度学习领域33年来的进步本质。