一文串讲人工智能简史，看完你就了解了AI的全貌

1950年，大名鼎鼎的数学家、逻辑学家，阿兰·图灵在他的论文中提出了一项耐人寻味的思考，“Can machines think？”

机器能思考吗？显然，在当时，没有人能回答他的这个问题。

图灵提出了一项测试，测试的流程是，测试者写下自己的问题，随后将问题发送给另一个房间中的一个人与一台机器。测试者根据他们的回答来判断哪一个是人，哪一个是机器。

这项测试就是著名的“图灵测试”，你千万别以为它在几十年前才会进行，实际上它现在每年都在举办，在2014年的测试中，有33%的测试者经过慎重评估，认为与他们交流的对象，是一位12岁左右的小男孩，实际上呢，那是一台计算机，名为“尤金·古德斯曼”。

33%的测试者把电脑当成了一个人意味着什么呢？计算机是否已经可以以假乱真了？我们来挖一挖人工智能的简史。

图灵测试是判断机器是否具备智能的一种“古老的”标准，许多人在追溯人工智能历史的时候，往往都从1950年图灵的论文开始，其实，我们还可以将人工智能的历史追溯到更早！

1914年

西班牙电子游戏大亨莱昂纳多·托雷斯·维克多构建了一台“国际象棋机器终端”，通俗点说，就是一台“自动下棋机”。它可以在任何位置上与人对局，无需人工干预。

找遍全网，我们发现这台机器的出现基本上是人工智能最早出现的年份了。

为什么机器下棋就被认为是智能呢？而不是蒸汽机、电报机、电话？其实，象棋、围棋、国际象棋……各种棋都是人类长期无聊发明的智力游戏，他们都是仅限于智能生物领域的娱乐活动，简而言之，只有人才能下棋，而动物，无论你怎么教它，它都不可能学会。能够下棋，代表着某种程度上的智能。

关于下棋，人工智能似乎跟它杠上了，后面我们还会多次提及。

1943年

美国两位跨界好友，神经学家沃伦·麦卡洛克和逻辑学家沃尔特·皮茨，联合发表了一篇关于人工神经网络的论文，两位的理论简称为“M-P”神经元模型，其核心内容是，用函数来模拟神经元。我们知道人的各种反应都是由不同的神经元复杂交织的结果，麦卡洛克-皮茨神经元模型，其实就数学的方式来描述神经元，人类真正开始用数学方法研究神经元，这为后续人工智能的研究奠定了重要基础。

1946年

世界上第一台通用计算机ENIAC诞生，为人工智能的发展提供了计算工具。第一台计算机项目是由冯诺依曼领衔的，因此冯诺依曼也被后续称为“计算机之父”。

1950年

就是我们开篇提到的，大名鼎鼎的图灵登场了，他提出“图灵测试”，为判断机器是否具备智能提供了标准。

1956年

三位大佬，马文明斯基、约翰麦卡锡、克劳德·香农，联合发起了一场会议，这场会议从6月开到8月，旷日持久，至于为什么开会，开会讨论什么内容，在会前没人清楚。然而，就是这场会议，围绕图灵的那个灵魂问题“机器是否能够思考”，他们提出了一个重要的概念——“人工智能”，这场会议就是“达特茅斯会议”，它被称为人工智能的开端。人工智能，作为一个研究领域被正式确立了。

1957年

IBM公司推出了第一款具有人工智能功能的国际象棋程序。

这一年，美国一位年轻人，罗森布拉特提出了“感知机”理论，还记得前面我们提到的“麦卡洛克-皮茨神经元模型”吗，人类用函数模拟神经元，然而函数总是有误差的，罗森布拉特的“感知机”就是通过“误差”实现函数的自调整，这也为后续“梯度下降”奠定了基础。

1960年代

人工智能领域出现了许多重要的算法和理论，如决策树，决策树是一种分类方法。给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

在这个年代，同样流行的，还有“符号主义算法”。符号主义算法，顾名思义，就是主张通过符号运算，来模拟人类逻辑思维。

哈佛大学神经生物学家休伯尔和威泽尔做了一场著名的实验，猫咪生物实验，他们发现特定地模式刺激，会引发猫咪大脑特定部位的反应，这在视觉方面尤为突出，20多年后，他们两个因为在视觉信息处理方面的贡献，获得了1981年的诺贝尔生理学或医学奖。

1960年代，统计学快速发展，其中，一些重要概念被应用到人工智能领域，主要有：线性回归/逻辑回归、K近邻（KNN）、支持向量机（SVM）……

2024全球人工智能简史(一文串讲人工智能简史，看完你就了解了AI的全貌)

我们不打算详细展开这些概念，不然，我们会在知识的海洋中“找不着北”，只是让大家了解他们都是干嘛的。

线性回归/逻辑回归就是通过函数的形式，来达到模拟或预测事物发生的趋势或概率的目的。

K近邻（KNN）、支持向量机（SVM），都是一种分类算法，可以对所识别的事物给一个分类，便于后续处理。就这样。。

1970年代

人工智能开始应用于医疗、金融、教育等领域，尤其需要说明的是，专家系统，它取得了快速发展。

什么是专家系统呢？专家系统你可以理解为就是一大堆if/else，有编程经验的童鞋都很清楚，如果你事先把所有的可能性都预料到，并且都有相应的答案，那么，这不就是智能吗？与你对话的就是一位专家！事实上，聪明的你肯定想到了，专家系统很快就会遇到瓶颈，因为，人类不可能穷尽问题，也不可能穷尽问题的答案。。果然，没过几年，专家系统很快就陷入了低谷。

1976年

美国斯坦福大学开发的“SHRDLU系统”成为第一个成功的自然语言理解系统。

1980年前后

日本科学家福岛邦彦受猫咪生物实验的启发，模拟生物视觉系统并提出了一种层级化的多层人工神经网络，即“神经认知”系统，这是现今卷积神经网络的前身。在论文中，福岛邦彦还提出了一个包含卷积层、池化层的神经网络结构，几十年后，这些都成为神经网络的重要部分。

1986年

英国的杰弗里·辛顿团队发表了论文《通过反向传播误差来学习》，主要内容是利用链式求导法则，将误差从输出层逆向传递到输入层，逐层调整神经网络的权重，使模型通过梯度下降逐步逼近最优解，“反向传播”，这种颠覆性的模式彻底改变了人工智能领域。

同样是1986年，法国科学家杨立昆从休伯尔、威泽尔和福岛邦彦工作中获得了灵感，他对哺乳动物视觉皮层进行了深入研究，设想了一个多层网络架构，这种架构能够将简单细胞和复杂细胞的交替以及反向传播训练结合在一起，他认为这种类型的网络非常适合用于图像识别。在其后两年，杨立昆加入美国新泽西州的贝尔实验室，他开发了包括卷积神经网络在内的多个机器学习方法，并且真正实现了卷积神经网络，贝尔实验室将其命名为LeNet，就如他的姓LeCun一样，这是卷积网络的第一个名字。

还是在1986年，循环神经网络（RNN）提出，循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络后来在自然语言处理（Natural Language Processing, NLP），例如语音识别、语言建模、机器翻译等领域有着广泛应用，也被用于各类时间序列的预报。

1990年代

由于技术瓶颈、资金短缺等问题，人工智能在1990年代初期陷入了低谷。许多人工智能公司倒闭，研究资金大幅减少。

然而，在此时期，通信技术快速发展，大量的通信互联的需求催生计算机、设备等应用发展。互联网开始普及，搜索引擎、门户网站、社交网络等，贡献了海量的数据。

1995年

利昂布莱曼（Leo Breiman)和阿黛尔·卡特勒(Adele Cutler)提出随机森林算法并注册了商标,随机森林是一种包含很多决策树的分类器，既可以用于处理分类和回归问题，也适用于降维问题。其对异常值与噪音也有很好的容忍，相较于决策树有着更好的预测和分类性能。

1997年

IBM推出一台名为“深蓝”的计算机，击败当时国际象棋世界冠军，俄罗斯的卡斯特洛夫。

长短期记忆网络LSTM（Long Short-Term Memory）在这一时期提出，LSTM是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

2000年

互联网的快速普及带来海量的结构化与非结构化数据（文本、图像、视频），丰富了数据需求，大数据技术逐渐出现。互联网应用的发展，特别是电子商务、智能手机、移动支付的发展也大幅度催生硬件设备（存储设备、计算设备）的发展。

约书亚·本吉奥发表了一篇名为《神经概率语言模型》文章，论文引入高维单词嵌入作为词义的表示，让网络识别新短语与训练集中包含的短语之间的相似性，这种方法致使机器翻译和自然语言理解系统的重大转变，本吉奥团队通过将神经词嵌入和“注意力”机制结合起来，进一步提高了机器翻译系统的性能。

2006年

Apache基金会开发的分布式系统基础架构Hadoop项目启动，它使用户能够在不了解分布式底层细节的情况下仍然可以开发分布式程序，充分利用集群的威力进行高速运算和存储，Hadoop的诞生与Google在2003年发布的分布式文件系统(GFS)和2004年的MapReduce论文密切相关。

在这一年，英伟达（NVIDIA）推出 CUDA 架构，GPU 首次用于科学计算，算力比 CPU 提升 50 倍以上，推动深度学习算法（如 AlexNet）的实验成为可能。（CPU与GPU的区别）

2009年

美国普林斯顿大学李飞飞教授团队首次发布了ImageNet项目，ImageNet是计算机视觉领域最重要的图像数据库之一，包含超1400万标注图像，推动了深度学习革命。其后，ImageNet每年都会举办大规模视觉识别挑战赛（ILSVRC），研究团队在给定的数据集上评估其算法，并在几项视觉识别任务中争夺更高的准确性。

2012年

多伦多大学辛顿教授团队在ImageNet竞赛中以卷积神经网络架构将图像识别的错误率由26.2%骤降15.3%，这标志着深度学习时代的开启。

2014年

约书亚·本吉奥和伊恩·古德费洛一起提出了“生成对抗性网络”的概念，生成性网络学习生成与训练难以区分的对象，该技术是“对抗性的”，被广泛用于生成图像，例如自动生成高度逼真的不存在的人或物体的照片。

2015年

残差网络诞生。残差网络由微软研究院的何凯明等人提出，其核心在于通过残差连接（residual connections）解决深层网络训练中的梯度消失和梯度爆炸的问题，使得网络可以训练得更深，性能更强。

在这一年，TensorFlow依据阿帕奇授权协议（Apache 2.0 open source license）开放了源代码。TensorFlow是一个基于数据流编程（dataflow programming）的机器学习框架，被广泛应用于各类机器学习（machine learning）算法的编程实现，其前身是谷歌的神经网络算法库Dist-Belief。

2016年，

是AI发展历史上的高光之年，

这一年，谷歌的AlphaGo取得重大里程碑，其DeepMind的强化学习模型击败了围棋世界冠军李世石，证明AI在复杂决策领域具有非常大的潜力，从而引发全球AI投资的热潮。谷歌随后在I/O年会上首次公布了TPU，标志着专用 AI 芯片的问世，TPU即张量处理器，算力比 GPU 再提升 10 倍以上；云计算和分布式计算让普通开发者也能调用千万亿次 / 秒的算力资源。

这一年，Facebook发布PyTorch并开源，PyTorch与TensorFlow并列，同样是一款用于机器学习和深度学习的开源深度学习框架。

这一年，移动互联网快速普及推动全球数据量大爆发，ImageNet、COCO等开源数据集推动视觉算法迭代。

2017年

谷歌提出了一种自注意力机制架构——Transformer，Transformer 本质是一个Encoder-Decoder 架构（编码器 - 解码器），主要由三个积木块组成：自注意力层、位置编码、多层堆叠结构。它解决了长序列依赖的问题，为后续大语言模型（LLM）的发展奠定了重要基础。

2018年

OpenAI 推出GPT-1，约有1.17亿个参数，模型参数急剧走向了规模化，同年，华为公司发布了两款人工智能芯片，包括昇腾910和昇腾310处理器，成为国产自研AI芯片的开端。

2019年

华为推出新一代全场景AI框架“昇思MindSpore”，一年后，华为宣布昇思MindSpore正式开源。昇思MindSpore是一个全场景AI框架，旨在实现易开发、高效执行、全场景统一部署三大目标。

2021年

CLIP（图文匹配模型）、DALL·E（文生图）实现跨模态理解，推动AI从单模态向多模态演进。

2022年

Stable Diffusion开源，大幅度降低了高质量图像生成的门槛。全球智算中心密集投运，如中国贵安新区超算中心（2022年算力达到3亿亿次/秒），数据驱动范式，预训练+微调，利用无标注海量数据预训练模型（如BERT），再以少量标注数据微调适配任务，显著降低了应用门槛。

在这一年11月，现象级AI应用ChatGPT发布，2个月用户破亿，推动AI从技术工具向大众产品转型。

chatgpt发布以后，大模型成为AI领域最火重要概念。大模型，即大规模预训练模型（Large Pre-trained Model），是人工智能领域近年来最具突破性的技术方向。它的核心特征可以用三个 "大" 来概括：

参数规模大：模型包含数百亿到数万亿个可学习参数，如 ChatGPT 背后的 GPT-3 有 1750 亿参数，GPT-4 参数规模更庞大，这些参数如同模型的 "神经突触"，存储着从数据中学习到的知识。

训练数据量大：需用 TB 级到 PB 级的海量数据，如 GPT-3 训练数据量达 45TB，涵盖互联网文本、书籍、代码等，数据越多样，模型 "见识" 越广。

算力需求大：训练一次 GPT-3 需消耗约 1200 万美元的算力资源，相当于 30 万颗 CPU 同时运行一个月，依赖超级计算机集群或分布式算力平台。

当模型参数突破一定数量级（通常为千亿级）后，会出现传统小模型不具备的涌现能力：主要包括思维链（COT）、上下文学习（ICL）、指令遵循等。

2024年

OpenAI推出Sora，AI开始走向文生视频领域，多模态能力实现跨越式提升。

2024年12月，DeepSeek-R1发布，其训练成本不到600万美元，6710亿参数，每次推理的开销仅为OpenAI同级模型的约2%，开源、免费，真正开启了AI普惠化时代。

全文完。

本文未经同意严禁转载，侵权必究。