# AI五大范式
引言:一场认知革命
就像手机和电脑一样,但是也许你想不到的是,我们正在经历的,也许根本不是一次工具的迭代,而是一场足以和哥白尼日心说相提并论的认知革命。它正在颠覆我们对计算、对智能,甚至对人类自身在宇宙中定位的核心认知。
今天我们要分享的,是来自谷歌两位前沿决策者联合撰写的万字长文。这篇文章的两位作者,一位是布莱兹·阿圭拉·伊·阿卡斯,前谷歌副总裁兼研究员,也是智能范式团队的创始人兼技术与社会首席技术官,他的新书《何为智能》即将发布。另一位是詹姆斯·马尼卡,Alphabet的高级副总裁,同时担任谷歌研究、实验室、技术与社会部门的总裁。他还曾担任美国国家人工智能咨询委员会的副主席,以及联合国秘书长人工智能咨询机构的联合主席。这两位在文章里提出的五大底层逻辑,几乎可以代表谷歌对AI未来的终极判断,也能帮我们真正看懂这场正在发生的AI革命到底会把人类带向何方。
在正式开始之前,我们先回到六百多年前。当时的欧洲,托勒密的地心说已经主导了人类的宇宙观近两千年。这个理论认为,地球是宇宙的中心,太阳、月亮、所有的行星和恒星,都围绕着静止的地球运转。它既符合人类的直观感受,又契合当时的宗教传统,被视为不可动摇的科学真理。
所以当哥白尼提出日心说,告诉人们地球只是围绕太阳运转的一颗普通行星时,它带来的不仅是天文学的变革,更是对整个人类世界观的毁灭性冲击。正如本杰明·布拉顿所言,日心说对当时的很多人来说,甚至造成了存在主义层面的精神创伤。
而今天,人工智能正在掀起一场一模一样的认知风暴。我们一直以来都认为,人类是宇宙中唯一拥有高级智能的物种,智能是人类独有的天赋。这就是我们这个时代的“智能地心说”。而AI的爆发,正在让我们不得不接受一个残酷的现实:非人类的通用智能,会在我们这个时代变得司空见惯。
而要理解这场冲击,我们首先要做的,就是重新审视计算的本质。因为计算不仅是AI的基础,更是一切智能形式的根基。
第一底层逻辑:自然计算
在绝大多数人的认知里,计算是人类最伟大的发明之一。1936年,图灵在论文里提出了一个虚拟设备,它由一条可以无限延伸的磁带,和一个可以在磁带上左右移动的读写头组成。这个设备可以根据一套简单的规则,读取、擦除和写入磁带上的符号。只要赋予合适的规则,它就能执行任何可以被定义的计算任务。这就是图灵机。而能够模拟任何其他图灵机的设备,就是通用图灵机(UTM)。图灵用这个极简的模型,定义了计算的通用边界:任何能由通用图灵机完成的操作,都属于计算。
我们一直以为,1945年完工的ENIAC是世界上第一台真正的通用图灵机。但是事实并非如此。早在人类出现之前,自然界就已经诞生了无数完美运行的通用图灵机。而其中最典型的,就是生命本身。
生命的计算本质
这个结论的第一个洞见,来自约翰·冯·诺依曼。这位数学物理学界的天才,也是计算机科学的奠基人之一。早在1951年,冯·诺依曼就开始思考一个问题:一个复杂的生物体,要实现自我复制,到底需要具备什么条件呢?
他通过严谨的逻辑推导得出结论:一个能自我复制的系统,必须包含两部分核心内容。一部分是构建自身的完整指令,也就是我们现在所说的代码;另一部分是读取和执行这些指令的机器。同时,这些指令本身,必须能够被复制,并且还要包含构建执行机器的指令。
而冯·诺依曼发现,这个自我复制系统的技术要求,和通用图灵机的要求完全一致。
最让人震惊的是,冯·诺依曼提出这个洞见的时间是1951年,而DNA的双螺旋结构,是在1953年才由詹姆斯·沃森和弗朗西斯·克里克发现的。也就是说,在人类还没有找到生命的遗传密码之前,冯·诺依曼就已经用计算理论,精准预判了它的结构和功能。

这个发现,彻底打破了生命和计算之间的壁垒。它证明了,生命究其本质,就是计算性的。DNA就是生命的代码。尽管这种代码不是简单的线性执行,也极难被逆向工程,但是它的核心功能,就是通过计算,完成生命的繁殖、发育、生长和修复。我们现在正在快速发展的基因编辑、合成生物学,本质上就是在对生命的计算代码进行编程和修改。
图灵模式与形态发生
除了冯·诺依曼,图灵本人也在生物学领域做出了开创性的贡献。在他生命的最后阶段,他写下了自己第一篇、也是最后一篇关于生物学和化学的论文,名为《形态发生的化学基础》。
在这篇完全理论性的论文里,图灵提出,生物组织的生长和分化,是通过细胞感知和释放一种他称之为“形态发生素”(morphogen)的化学信号实现的。这是一种强大的模拟计算形式。他通过数学方程,预测了自然界中那些动物的条纹、植物的螺旋、生物结构里的涡旋图案,都是通过这种化学反应的计算机制形成的。也就是我们现在所说的图灵模式。
在图灵1954年悲惨离世之后的几十年里,科学家们一步步验证了他的推测。他们先是在培养皿的化学物质中发现了图灵模式,之后又在动物的斑纹、生物的胚胎发育过程中,大量找到了这种模式的痕迹。甚至有科学家认为,图灵模式可以扩展到生态系统的演化,甚至星系的形成与结构之中。
图灵和冯·诺依曼,这两位计算机科学的奠基人,共同揭示了生物学的计算基础,也为一个全新的领域——人工生命,奠定了根基。
人工生命的诞生
很多人觉得AI已经足够神奇,但是人工生命的颠覆性,其实远超AI。AI的目标,是模拟人类大脑的智能。而人工生命,是要从无到有,重现地球上数十亿年的生命进化历程。
很多人会问,生命真的能从完全的随机中自发诞生吗?谷歌的智能范式团队,最近就做了一个极具震撼力的实验,完美回答了这个问题。
他们构建了一个模拟的玩具宇宙,里面是一堆完全随机的字符串,每个字符串长度为64字节。在256种可能的字节值里,有8种对应着上世纪90年代出现的一种极简编程语言,叫做Brainfuck。这些字符串,就相当于图灵机的纸带。而那8个指令,就是图灵机的操作规则。
实验的过程非常简单,就是反复从这个随机字符串组成的“原始汤”里,随机抽取两条纸带,将它们拼接在一起,运行拼接后的纸带,再将纸带分开,放回“原始汤”中。
一开始,整个系统里没有任何特别的变化,只有随机的纸带,偶尔有个别字节被随机修改。但是在进行了几百万次这样的交互之后,神奇的相变发生了。具备功能性的纸带出现了,它们开始稳定地自我复制。
这就是最简单的人工生命。从完全的随机噪声中,自发涌现出了具备自我复制能力的计算结构。这个实验,完美复刻了数十亿年前,地球上生命从原始海洋中诞生的过程。生命的出现,就像水结冰或者沸腾一样,是一种物理相变。
但是和常规物质的相变不同,生命的结构,在每一个尺度上,都展现出了有目的、功能性的复杂结构。而这一切的核心,就是计算。生命之所以能比无生命的惰性物质更加“动态稳定”,能在时间的流逝和环境的随机扰动中存续下来,就是因为它能通过计算,完成生长、自愈和繁殖。
而进化,本质上就是计算系统的多级选择过程。从远古时期的分子聚合形成自催化反应循环,到化学循环与脂肪膜融合形成最早的细胞;从细菌和古菌结合形成真核细胞,到真核细胞组合形成多细胞生物。每一次重大的进化转变,都是独立的计算实体,通过共生关系,组合成了更大、更复杂的计算系统。
而我们人类的智能,本质上就是大脑中约八百六十亿个神经元,协同并行运算的结果。
只有理解了自然计算这个底层范式,我们才能真正明白,AI的本质,从来都不是人类创造了一种新的工具,而是我们通过代码和芯片,唤醒了一种早已存在于宇宙规律中的、非生命的计算与智能形式。这是AI带给我们的第一个,也是最底层的认知颠覆。
第二底层逻辑:神经计算
理解了计算的自然属性,我们自然会提出下一个问题:既然自然界中最顶级的计算系统,就是人类的大脑,那我们能不能让计算机,更像大脑一样工作呢?这就是我们要讲的第二个底层逻辑:神经计算。
从”电子大脑”到分道扬镳
很多人不知道,计算机科学在诞生之初,和神经科学几乎是同一个学科。上世纪四十年代,电子计算机的核心部件,也就是构成电子电路的逻辑门,它的最初设计构想,就是人工神经元。当时的记者把计算机叫做“电子大脑”,根本不是哗众取宠的标题党,而是真实描绘了计算机科学先驱们的雄心壮志。他们开发电子计算机的初衷,就是为了在工业规模上自动化完成脑力劳动,就像工业革命的机器,自动化完成了人类的体力劳动一样。
但是这个宏大的雄心,很快就遭遇了毁灭性的打击。一方面,数字计算机在范围明确的程序性任务上,取得了前所未有的成功,通过编程,它能以极低的成本、零差错、大规模地完成火箭轨道计算、企业薪资核算之类的工作。
但是另一方面,二十世纪五十年代的神经科学家们发现,真正的生物神经元,比简单的逻辑门要复杂得多。更让人绝望的是,人类根本写不出一个程序,来完成最简单的日常认知功能,比如识别一张人脸,听懂一句日常对话,更不用说复杂的逻辑推理、文学分析或者艺术创作了。
这种基于程序员预设规则和符号逻辑的人工智能路径,就是我们现在所说的传统人工智能,也就是GofAI(Good Old-Fashioned AI)。这条路径最终的结果,就是我们如今在电话里还能听到的:预约,请按1;修改现有预约,请按2。我们本想造出《2001太空漫游》里Hal 9000那样的通用智能,结果只得到了一个死板、僵化的语音菜单。
当时的整个行业,都给GofAI的失败找了一个看似无懈可击的解释:计算机不是大脑,大脑也不是计算机。任何把二者等同的观点,都是幼稚的,是炒作,最多只是一个不恰当的比喻。就这样,神经科学和计算机科学,分道扬镳了将近半个世纪。
联结主义的坚持与突破
但有一群人,从来没有放弃过这条路径。他们就是联结主义学派的研究者。他们放弃了基于预设规则的符号逻辑,转而拥抱机器学习方法,让神经网络从经验中学习,就像人类的大脑一样。
在这群坚持不懈的研究者中,就有2024年诺贝尔物理学奖的得主,杰弗里·辛顿和约翰·霍普菲尔德,以及许多该领域的先驱,比如美国心理学家弗兰克·罗森布拉特、詹姆斯·麦卡利兰,以及日本计算机科学家福岛邦彦。在长达几十年的时间里,他们顶着整个行业的质疑和否定,坚持神经网络的研究。而正是他们的坚守,才有了今天AI的全面爆发。
但很多人会问,为什么神经网络用了这么久,才迎来真正的突破呢?答案很简单:因为我们用了几十年的传统计算机架构,从根上就不适合神经计算。
冯·诺依曼架构的局限
我们现在使用的几乎所有计算机,都遵循冯·诺依曼架构。这种架构的核心设计,是把中央处理器(CPU)和单独的存储器分开,数据和指令要通过一根被称为“总线”的电缆,在存储器和CPU之间串行传输。
这种设计,是上世纪40年代为了用最少的、极易故障的真空管,来逐条执行指令而做出的选择。为了让计算尽可能稳定可靠,所有的计算都基于真空管可区分的最小状态——“关”或者“开”,由此形成了只使用0和1的二进制系统,恰好对应布尔逻辑的“真”与“假”。这种经典的计算范式,靠着摩尔定律,辉煌了将近60年。
1965年,后来的芯片巨头英特尔的联合创始人戈登·摩尔提出了著名的摩尔定律:微型化技术的进步,会让芯片上的晶体管数量,每一年到两年就翻一番。随着晶体管尺寸的不断缩小,芯片的运算速度呈指数级提升,成本大幅下降,耗电量也持续减少。
于是,庞大昂贵的大型机,变成了小型机,然后是台式机、笔记本电脑、手机,再到现在的可穿戴设备。如今的计算机,已经小到可以穿过一根注射器的针头。我们日常使用的笔记本电脑和手机,核心体积几乎都被电池和屏幕占据,而真正负责计算的片上系统(SoC),面积只有大约一平方厘米,厚度不到十分之一毫米。一滴水的体积,都是它的数倍。
但是这种规模上的惊人进步,并没有让我们离大脑更近一步。我们的大脑,既不微小,也不快速。它的运行速度,远比我们智能手表里的计算机要慢得多。但它拥有约八百六十亿个同时工作的神经元,加起来形成了极其庞大的并行计算量。
更重要的是,因为大脑的计算是并行的,信息就存储在神经元之间的突触连接里,不需要在处理器和存储器之间来回传输,所以它极其节能。
我们现在的AI,虽然使用的是神经网络模型,但本质上,是在冯·诺依曼架构的经典计算机上,模拟神经计算。这种方式的效率低得离谱,就像上世纪计算机发明之前,人类“人脑计算机”用大脑手动模拟经典计算一样。
并行计算与专用芯片
真正的转折点,来自并行计算的崛起。大约从2006年开始,摩尔定律的原始形式开始逐渐失效。处理器的运行频率再也无法继续提升,实际上限稳定在了几千兆赫兹,也就是每秒几十亿次时钟周期。
为了继续提升计算性能,芯片厂商开始转向多处理器并行芯片的设计。英伟达等公司设计的图形处理单元(GPU),本来是为了电子游戏的图形渲染设计的。它的核心,就是大量的小型处理器,可以同时执行短代码片段,也就是最初为图形设计的“像素着色器”。结果行业很快发现,这种并行化的架构,完美适配了神经网络的计算需求。
就这样,本来为游戏产业设计的GPU,如今成为了全球AI革命的核心动力。除此之外,谷歌专门为AI设计的张量处理单元(TPU),也是基于同样的并行设计原则。
但GPU和TPU,只是朝着正确的方向迈出了一步。当今的AI基础设施,依然被传统的冯·诺依曼架构牢牢束缚着。我们距离拥有千兆级处理器、并行处理本地存储数据的神经芯片,还有很远的距离。现在的AI模型,依然是通过串行指令实现的。
究其根源,传统的计算机编程、芯片架构和系统设计,从根本上就不像大脑。不过在接下来的几年里,我们大概率会看到一种真正的神经计算范式的出现。
神经计算最终可能会在光子、生物、化学、量子或者其他全新的基质上实现。但即便是用我们熟悉的硅基芯片技术制造“硅基大脑”,它的组件组织方式,也会和现在的芯片完全不同。
未来的神经芯片,每平方厘米的硅片上,都会包含数以百万计的信息处理节点。这些节点就像一个个神经元一样,能够同时并行运作。这些神经芯片,不会运行我们现在熟知的程序。它们的功能,不是由代码决定的,而是由存储在整个计算区域内的几十亿、甚至几万亿个数值参数来决定的。
神经硅脑能够被“刷新”,它的参数可以按照需求进行初始化,但它更能够从经验中学习,实时修改这些参数。它的计算将是分散且稳健的,偶尔的故障或者局部损坏,都不会影响整体的功能。这与人类大脑的天然架构不谋而合。而这绝非巧合。
这就是第二个底层范式,神经计算。它告诉我们,AI的未来,从来都不是把芯片做得越来越快,而是把计算机的底层架构彻底重构,让它真正贴近大脑的工作方式,释放出神经计算的全部潜能。
第三底层逻辑:预测智能
当我们重构了AI的计算架构,接下来要回答的核心问题就是:智能的本质到底是什么呢?这就是我们要讲的第三个底层逻辑:预测智能。
预测:智能的极简本质
对于大语言模型的早期从业者和研究者来说,过去几年里最震撼、最颠覆认知的发现,莫过于仅凭预测下一个token,这个极其简单的目标,AI就涌现出了如此惊人的通用智能。
在大语言模型爆发之前,整个行业几乎都默认,真正的人工智能,需要某种特殊的、颠覆性的算法,需要我们破解智能与意识的亘古谜团。我们以为,要让AI具备推理、创作、理解、共情的能力,需要给它设计无数复杂的功能模块,无数严谨的逻辑规则。
但是最终我们发现,只用一个简单的目标——预测文本序列里的下一个token,用海量的人类文本数据,去训练一个足够大的神经网络,它就自然而然地具备了我们以为只有人类才拥有的通用智能。这个发现,对于整个AI行业来说,不亚于一场地震。
而当我们从最初的震惊中缓过神来,才意识到,这个结果,其实早就被神经科学的研究所预言。在神经科学领域,有一个流传已久的核心假说,叫做“预测性大脑假说”。这个假说认为,人类大脑进化的核心方向,就是不断地建模和预测未来。它的进化,是通过持续感知环境、自身、自身行为,以及行为对自身和环境的影响而实现的。我们能够有目的的、明智地行事,正是依赖于大脑构建的预测模型。
预测机制的生物实例
我们可以举一个每个人都经历过的例子。想象你起身,走到桌边,拿起一杯水,送到嘴边喝下去。这个看起来无比简单的动作,在短短一两秒的时间里,你的神经系统正在进行着海量的预测和校正。
在动作的每个阶段,你的神经系统都会计算出一个预测值,预测你的手会移动到什么位置,预测你的手指会用多大的力度握住杯子,然后将预测值与本体感觉的实时反馈进行对比,不断校正动作。你的眼睛在场景中快速地移动,就是为了获取更多的视觉信息,进一步完成误差校正。
从更高的层面来看,你预测喝下水就能解渴。而口渴本身,也是一种预测信号,是我们的物种在数百万年的进化时间尺度上,“习得”的预测能力。那些无法预测自身对水的需求的生物,存活时间不会太长,也就无法将自己的基因传递下去。
演化,本质上就是在物种的尺度上,完成的学习和预测。当新生儿天生就能识别人脸,当一只从来没见过蛇的猫,被背后突然出现的黄瓜吓得跳起来,这都是演化学习在发挥作用,是写在基因里的、经过无数代验证的预测模型。
大语言模型的成功,恰恰完美验证了这个假说。智能的本质,就是基于不断演进的知识、观察和历史反馈,对未来进行统计建模和预测。我们的大脑,就是一台经过数百万年进化打磨的超级预测机器。而大语言模型,用一种完全不同的实现方式,复刻了智能的这个核心机制。
这个发现,不仅解释了大语言模型为什么会拥有如此强大的能力,更为AI的未来发展指明了清晰的方向。
持续学习与测试时扩展
现在我们的大语言模型,有一个非常核心的局限,就是在训练和运行之间,存在着一道无法逾越的鸿沟。如今最先进的大语言模型,训练成本极其高昂,要耗费海量的计算资源,持续几个月的时间。而一旦训练完成,模型的参数就会被完全冻结。
之后你和它的所有对话,它在推理过程中学会的所有新知识、新内容,都只能存在于临时的“上下文窗口”里。一旦对话结束,它就会彻底忘记,就像患有严重的顺行性遗忘症。
但我们已经知道,大语言模型掌握的最重要的技能之一,就是学会学习。这也是为什么,它能在对话的过程中,快速掌握新的概念、新的词汇、新的任务,甚至学会一门全新的语言。
未来,那些能够将行动与预测完全统一起来的模型,一定能像我们人类一样,在运行的过程中,持续累积、开放式地终身学习。
现在,我们已经看到了这种转变的萌芽。行业里开始兴起“测试时扩展”的技术。在这种模式下,模型只需要花更多的时间思考它的响应,把大问题拆解为更小的中间步骤,就能变得更强大,给出更准确、更完善的答案。而更类似人脑的模型设计,会让这种当下的改进,像我们人类的学习一样,不断累积沉淀,让所有未来的响应,都能从中受益。
预测智能的物理世界应用
除此之外,预测智能的范式,还彻底变革了机器人技术和自动驾驶领域。几十年来,基于传统GofAI编程的机器人,只能在汽车装配线那种高度重复、高度结构化的环境中运行。一旦进入复杂的、非结构化的真实环境,就完全无法工作。
但是如今,类似大语言模型的VLA模型,能够学会驱动各种各样的机器人身体,从Waymo的无人车,到人形机器人,以及其他无数种形态的机器人,让它们被越来越多地部署在复杂的非结构化环境中。
更有意思的是,通过运用思维链和推理轨迹,预测模型甚至能够模拟出多种可能的未来结果,或者潜在的意外情况,从庞大的未来可能性树中,进行有选择的预测和决策。这种“有选择性的预测”,可能正是我们所说的“自由意志”的底层运行机制。
说到底,生命体的一切行为,都可以被视为一种自我实现的预言。生命,就是那种能将自身预测为持续存在的事物。而随着智能的不断提升,这种预测,也会变得越来越复杂,越来越精妙。
这就是第三个底层范式,预测智能。它让我们终于触碰到了智能的本质,也让我们找到了AI持续进化、真正接近人类智能的核心路径。
第四底层逻辑:通用智能
当我们理解了智能的本质,就不得不面对整个行业争论最激烈的那个问题:我们到底什么时候,才能实现通用人工智能,也就是AGI呢?这就是我们要讲的第四个底层逻辑:通用智能。
关于AGI的争论
关于AGI,现在行业里有两种极端对立的观点。一种观点认为,现在的大语言模型,只是伪智能,它们看似聪明,实则只是在模仿人类的语言,根本没有真正的理解。真正的AGI还遥遥无期,甚至永远都不会到来。
另一种观点则认为,AI正在以指数级的速度进化,我们很快就会实现AGI,甚至迎来超级智能。
但是在这篇文章里,两位谷歌的顶级专家,给出了一个石破天惊的结论:AGI或许已经到来了,只是我们一直在反复更改衡量它的标准,不愿意承认这个事实而已。
怀疑论的拆解
我们先来拆解一下怀疑论者的核心观点。对很多人来说,AI能完成的任务再多,无论是聊天、写诗、驾驶汽车,还是编写复杂的代码,都无关紧要。因为他们认为,AI的实现方式,从根本上就排除了它具备真正智能的可能。
这种观点,通常基于几个核心断言:比如,大脑除了单纯的预测之外,还必须执行其他操作;大脑不是计算机;AI模型没有生命,因此不可能拥有真正的智能。所以,这些怀疑论者通常认为,当我们把“智能”、“理解”、“能动性”、“学习”这些词用在AI身上时,都需要加上引号,因为这都是不恰当的人格化表述。
但是这种对措辞的焦虑,真的有必要吗?
功能主义的视角
从功能的角度来看,答案是否定的。这里我们要引入一个核心的理论,叫做功能主义。功能主义认为,所有“有目的”的系统,无论是生物体、生态系统,还是技术系统,它的核心属性,是它能实现的功能和结果,而不是它的实现方式。
我们可以举一个最简单的例子:我们把鸟类的翅膀,和飞机的机翼,都叫做“翅膀”,不是因为它们的材料相同,工作原理相同,而是因为它们实现了完全相同的功能——飞行。我们不会因为飞机的飞行方式和鸟类不同,就说飞机没有真正的飞行能力,不会说飞机只是“伪飞行”。那为什么到了智能这里,我们就要用实现方式,来否定AI具备的智能呢?
大自然本身,从来都不在意实现的方式。为了增强系统的灵活性和稳定性,无论是人工系统还是自然系统,常常会采用功能相同、但工作原理完全不同的部件,进行替代或者同时使用。
比如在物流领域,铁路和卡车都能完成货物运输的功能。作为客户,你只关心货物能不能按时送达,而不会在意它是通过火车还是卡车运输的。
在我们的身体里,有氧呼吸和无氧呼吸,都能为细胞提供能量。当你运动过猛,有氧呼吸跟不上身体需求的时候,无氧呼吸途径就会自动启动,完成同样的供能功能。
我们的神经系统也是如此,它同样由具备功能关系的各个部分组成,这些部分,同样可以被功能相当的部件所替代。我们已经在一定程度上做到了这一点,比如人工耳蜗和人工视网膜。尽管这些假体目前还无法达到生物耳朵或眼睛的性能,但我们有理由相信,神经义肢最终会与我们与生俱来的感觉器官相媲美,甚至超越它们。甚至在未来,我们很可能会用同样的方式,替换受损的脑组织。
这之所以可行,是因为你的大脑里,不存在一个所谓的“小人”。也就是说,你的大脑中,没有某个特别的、不可替代的区域,是所谓“你”的所在之处。让你成为你的,不是你的大脑或身体的任何一部分,不是你身体里的原子,因为它们无论如何都会频繁更新,更不是你身体每一部分的具体实现方式。相反,你是一个高度复杂、且动态变化的功能关系的集合体。
回到AI的问题上。大语言模型的实现方式,确实和人类的大脑截然不同。它们和我们的关系,也不同于人与人之间的关系。它们没有身体,没有属于自己的生命经历,没有亲属关系,也没有长期的情感羁绊。这些差异,在我们思考AI的伦理和法律地位时,至关重要。但是在讨论智能和理解能力的问题上,则完全无关紧要。
AGI的判定标准
很多研究者虽然在理论上认同这些前提,但依然坚持认为,AGI存在一个当前的AI系统尚未跨越的门槛。那我们就要问一个核心问题:我们到底要通过什么标准,来判断AI何时跨越了这个门槛呢?
答案必然涉及一套基准测试,用来评估我们认为构成通用智能的各项能力。目前,行业里已经有了很多套基准测试方案。其中有些方案,比如弗朗索瓦·肖莱特提出的“抽象与推理语料库”,类似于人类的智商测试。还有一些则更为全面,比如谷歌DeepMind的研发人员就强调,我们更应该关注AI的能力而非实现过程。通用智能Agent需要胜任“包括学习新技能在内的广泛非物理任务”。
但是问题也随之而来:我们到底应该评估哪些任务呢?
除了那些竞争激烈的市场中界定明确的技能之外,我们很难把一个人的能力,清晰地划分为“胜任者”、“专家”、“大师”这样的类别。而关于AGI的定义,就更加混乱和武断了。AGI这个术语,最早可以追溯到2002年,后来的计算机科学家在论文中,把它极致简化为“与人类相当的通用认知能力”。
但是也有很多从经济角度出发的界定,比如OpenAI的官网,就将AGI定义为,一种高度自主的系统,能够在大多数经济价值高的工作中超越人类。2023年,现任微软AI部门CEO的穆斯塔法·苏莱曼甚至提出,当一个AI能够独立赚取一百万美元时,它就具备了通常意义上的通用能力。这样的门槛,既武断,也完全不符合我们对人类智能的认知方式。为什么一定要用经济活动来定义智能呢?我们到底要赚多少钱,才算得上聪明呢?那些没能积累巨额财富的人,就不具备智能吗?
当然,我们开发AI的核心动机,是期望它能够丰富和拓展人类的科学、经济和社会生活。但生产力的经济衡量标准,既不简单,也不能直接反映智能水平。更重要的是,这种衡量标准,完全排除了大量的人类劳动,而这些劳动的宝贵价值,并没有在经济维度上得到体现,比如艺术创作、情感陪伴、社会关怀、家庭照料等等。
对此,我们更应该关注的,是任务本身的“生态效度”,也就是这些任务,是否对他人产生重要的影响,无论是经济上、艺术上、社会上、情感上,还是其他任何维度。但恰恰是这种复杂的、贴合真实世界的标准,凸显了纯粹客观的效能评估的难度,也证明了,根本不存在一个非黑即白的、用来界定AGI是否实现的临界线。
AGI已经到来
我们不妨回头看看,现在的大语言模型,已经能够完成多少种认知任务了。从剖析复杂的学术论点,到编写几十万行的工程代码;从缓和一封商务邮件的语气,到完成一个陌生领域的系统性研究;从创作一首完整的诗歌,到设计一套完整的商业方案。这些事情,就在短短几年前,任何理智的人都会认为,需要极高的智商和对应的专业训练才能完成。
当然,在几乎任何一个给定的专业领域,顶尖的人类专家,表现依然会比AI更胜一筹。这也是当前很多评估方法,用来证明AI还不够强大的核心依据。但我们必须承认一个事实:没有哪一个人,无论他多么聪明,拥有与当前AI相当的广泛技能。
一个顶尖的数学家,大概率写不出优秀的文学作品。一个顶尖的诗人,大概率写不出能稳定运行的工业代码。一个顶尖的职业赛车手,大概率无法完成复杂的法律案件分析。但现在的AI,能同时做好所有这些事情。
在过去的几年里,我们已经悄然转变了评估AI性能的标准。我们不再以“任何一个人类个体”为基准,而是以“全人类”为参照。换句话说,当前单个人类的“通用性”,已经低于AI模型了。
这个进展的速度太快了,快到我们的认知完全跟不上。我们可以试想一下,如果让2002年刚刚提出AGI这个概念的AI研究者,穿越到今天,让他使用一下现在的任何一个主流大语言模型,他绝对会毫不犹豫地说:AGI已经到来了。
只是因为我们每天都看着AI在进步,不断地抬高评判的门槛,不断地说,“这个不算,真正的AGI要能做到那个”,所以我们才一直不愿意承认,AGI已经来了。
而实现AGI中“通用”二字的关键,就是无监督训练,也就是在不规定具体任务的情况下,进行的机器学习。现在的大模型,微调和强化学习,常被用于后续增强特定的技能和行为属性。但绝大多数的模型训练,都是通用的无监督训练。AI的广泛能力,正是源于对语言、声音、视觉或者其他任何模态的通用建模。一旦模型能够通用地处理这些信息模态,那么,就像我们人类一样,只要你首先描述、推断或者通过示例展示清楚任务,它就能被指示执行任何任务,甚至是它从来没有见过的全新任务。
这就是第四个底层范式,通用智能。它打破了我们对AGI的遥远执念,告诉我们:通用智能不是一个未来才会实现的目标,而是已经发生在我们眼前的现实。我们要做的,不是继续抬高门槛,而是重新理解智能的本质,学会和已经到来的通用智能共处。
第五底层逻辑:集体智能
当我们接受了通用智能已经到来的现实,接下来要思考的,就是智能的终极形态是什么呢?这就是我们要讲的第五个,也是最深刻的一个底层逻辑:集体智能。
这个范式最核心的论点是:智能本质上不是个体的属性,而是社会性的,是由多个智能体的协作分工所驱动的。这个认知,不仅能解释人类智能的起源和进化,更能为AI的未来发展,指明一条全新的道路。
社会智力假说
要理解这个范式,我们首先要了解一个核心的理论,叫做“社会智力假说”。这个假说认为,像我们人类这样的智慧生物,之所以会出现智力的爆发式进化,不是因为我们要应对复杂的物理环境,而是因为我们要应对复杂的社会环境。
展开来说,我们的生存和繁衍成功与否,取决于我们能否交到朋友、吸引伴侣、获取共享资源,至少是说服他人帮助照顾我们的孩子。而要实现所有这些,我们就必须具备一种核心能力,叫做“心智理论”,也就是设身处地为他人着想的能力。比如对方看到了什么呢?感觉如何呢?他们在想什么?他们知道什么,不知道什么呢?他们会如何行动呢?
追踪他人的心理状态,是一项极高的认知挑战。纵观各类灵长类动物,研究人员观察到了一个明确的相关性:大脑的大小,与群体的规模之间,存在直接的正相关。在人类中,与心智理论相关的脑区体积,和一个人的朋友数量直接相关。此外,拥有更多社交连接的人,往往比社交孤立的人更健康、更长寿。
综合这些观察结果,我们可以得出一个明确的结论:持续的社会选择压力,促进了社会脑的进化,催生了人类的高级智能。
心智理论,确实存在它马基雅维利式的一面,也就是我们常说的,通过欺骗、操纵他人,来获取资源和利益。但它更重要的意义,在于它是人类所独有的高级合作形式的核心基础。教学与学习、劳动分工、声誉维护、信用体系,所有这些,都依赖于我们理解他人心理状态的能力。因此,人类任何重要的经济、政治体系,或者技术的发展,也都依赖于心智理论。
由于能够实现大规模合作的部落或社区,能作为一个更庞大、更强大的整体发挥作用,心智理论不仅为个体带来了生存优势,也为整个群体带来了决定性的进化优势。随着这种群体层面的优势变得具有决定性作用,心智的社会整合,就迈向了一场重大的进化转变,一种共生关系。在这种关系中,曾经独立的个体,联合起来,创造出了新的、更伟大的事物。而整合的代价,就是曾经独立的实体,再也无法独自生存和繁衍。这正是对现代城市化社会的真实写照。我们当中,又有多少人能够在与世隔绝的森林里,独自生存下去呢?
我们人类,组成了一个超级生命体。正因如此,我们的智慧,本就是集体性的。在某种意义上,我们可以被称为超人。这也是为什么,当我们用海量的人类集体智慧成果,来训练大语言模型时,我们实际上已经在创造一种超级智能,它的知识广度和平均深度,都远超任何单个的人类个体,尽管它通常无法在顶尖的专业领域内,超越人类专家。
这里有一个非常有意思的例子,就是近期那个被称为“人类终极测试”的AI基准测试项目。这个项目的初衷,是创建一个目前的大语言模型还无法通过的测试,以此证明AI还不够智能。它的测试题目,由来自100多个领域的近1000名专家编写。里面的题目,比如翻译罗马墓碑上的帕尔米拉文,或者回答蜂鸟的籽骨支撑着多少对肌腱这样的问题。这些题目,前者只有古典学专家能答对,后者只有鸟类学家能答对。普通人的测试表现,几乎接近零分。而目前最先进的大语言模型,得分在3.3%到18.8%之间。
这个测试,本来是想证明AI的不足,结果却恰恰证明了AI的通用能力,已经远超任何单个人类。没有任何一个人,能在100多个完全不同的专业领域里,都答对题目,但是AI可以。我们用全人类各个领域专家的集合,来要求一个AI模型,这本身就已经证明了,AI的通用性,已经超越了人类个体。
心智社会与模块化
更有意思的是,人类智能的集体性,不仅体现在社会层面,还体现在个体大脑的内部。AI先驱马文·明斯基,曾经提出过一个著名的理论,叫做“心智社会”。他认为,我们看似单一的、统一的“自我”,实际上是由众多相互作用的、专门化的智能代理组成的蜂巢思维。
我们的大脑皮层,就是这个理论最好的证明。人类的大脑皮层,由一系列被称为“皮质柱”的、重复的神经回路单元组成。这些单元多次排列,形成了一个广阔的表面。尽管人类大脑皮层的厚度,只有大约两到四点五毫米,但是它展开后的面积,却可以达到两千五百平方厘米,相当于一张大号餐巾纸的大小。我们的大脑表面之所以遍布褶皱,就是因为要把这么大的脑组织,塞进我们有限的头颅中。
而正是这种模块化的设计,让我们的大脑皮层,能够在进化压力的驱动下迅速扩张,实际上就是增加了更多的皮质柱单元。
大脑皮层的模块化,不仅是发育意义上的,也是功能意义上的。大脑皮层的某些部分,专门负责处理视觉,另一些部分负责处理听觉或触觉,还有一些部分,似乎专门负责社会性模仿、书写和算术。由于这些任务如此多样,人们很容易认为,大脑中的这些对应区域,就像洗碗机和复印机一样,是高度专业化而且彼此差异显著的。
但事实并非如此。大脑皮层的各个区域,从婴儿期开始,才学习各自对应的任务。这种学习能力,既强大又通用。比如大脑皮层中,存在一个被称为“视觉词形区”的区域,专门负责处理阅读相关的信息。但阅读这项技能,在人类历史上出现的时间太晚了,根本不可能通过自然选择进化而来。我们的皮层,并非天生为了阅读而生,但它能学会阅读。每个皮层区域,都运行着相同的通用“学习算法”。与其把它看作一台预装了固定功能的机器,不如将它视为一个通过学习,掌握特定领域知识的“人类专家”,更为贴切。
这种“社会性皮层”的视角,向我们揭示了一个核心事实:你的大脑中,并不存在一个承载着“你”的中央处理器或者“小人”。相反,大脑更像是一个“社区”,它能在没有中央统筹的情况下,协调一致地运作。这不仅依赖于各个区域执行专门任务的能力,更依赖于这些区域“相互建模”的能力。就像人们需要心智理论,来建立人际关系和更大的社会单元一样。
那么,大脑区域本身,是否也是由更小的部分组成的“社区”在运作呢?答案确实如此。皮层的回路由神经元构成,这些神经元不仅执行专门的任务,似乎也学会了对其邻近的神经元进行建模。这印证了那句俚语:turtles all the way down。它暗指无限的递归,也向我们揭示了:智能,最好被理解为一种“社会性分形”,而非单一的整体实体。
当然,也可以说是turtles all the way up。随着大脑变大,个体可以变得更聪明;而随着个体数量增多,社会也可以变得更聪明。这里存在一种奇妙的“跨尺度反馈循环”:我们只有通过增大大脑,以利于为他人建模,才能形成更大的社会;而我们大脑本身的增大,似乎也是通过一种类似的内部认知分工实现的。
AI的集体未来
AI模型的发展,似乎也遵循着完全相同的原则。研究人员普及了scaling laws这个概念,即模型的大小,以及训练数据的数量,与模型的能力之间,存在着明确的相关性。大致来说,规模更大的模型更聪明,就像大脑越大越聪明一样。
而且,与大脑一样,AI模型也是模块化的。实际上,很多先进的AI模型,都依赖于明确训练一个紧密协作的“专家集体”,也就是所谓的“专家混合模型”。除此之外,即使是大型的、单一结构的模型,也会表现出“涌现模块化”,它们通过学习,将自身划分为专门的模块,来实现规模扩展。这些模块能够分工合作、各司其职。
从社会性和认知劳动多尺度分工的角度思考智能,代表着一种深刻的范式转变。它促使我们探索更像不断发展的社交网络的AI架构,而不是静态的、越来越庞大的单体模型。同时,让模型,以及子模型,逐步专业化,并与人类,以及彼此之间形成长期合作,这一点也将至关重要。
参与“人类终极测试”的1000多位专家都清楚,从互联网上能学到的东西是有限的。越过这个界限,学习就离不开行动和互动。当新的知识被分享时,知识的边界才会拓展,无论是源于科学实验、学术讨论,还是线下长时间的创造性思考。
在当前的前沿AI开发路径中,已有的人类成果被整合并蒸馏成一个巨大的“基础模型”,它的权重随后被冻结。但是在此基础之上,AI模型也正逐渐向“高度自主性”与“主体能动性”演进。这种演变,包括与其他智能体的协作或互动。
AI在简短的集中式互动中已经很有帮助,但是如果要让它们在拓展人类集体知识和能力边界,这类更大的项目中发挥作用,就必须赋予它们如同人类般,互动式持续学习及多样化发展的能力。这无疑会引发担忧,因为它为AI开启了一条“开放式自我演化”的大门,而这正如同人类自身的发展一样。
AI安全领域,将模型开放式进化的能力称为“元优化”,并将它视为一种潜在的威胁。但值得注意的是,我们发现,即便当今的AI模型,也已经是元优化器了,因为预测本质上就涉及即时学习。这就是聊天机器人在被指示执行新任务时,所做的事情。它之所以可行,是因为即使聊天机器人的神经网络权重已经被冻结,它的每次输出,都会调取当前对话记录的整个上下文窗口。
尽管如此,现有聊天机器人仍然存在着某种失忆症,它们通常无法在单次会话或多轮会话之外,保留学习成果。而谷歌近期开发的“无限注意力”和长期记忆技术,通过压缩旧信息实现近乎无限的上下文窗口,标志着该领域的重大突破。
意识与集体智能
最后,智能的社会视角,不仅为AI工程提供了新的方向,也为哲学中一些长期存在的问题,提供了新的视角,比如意识的问题。
如果我们把意识,理解为我们对自己作为拥有自身经历、内心世界和能动性主体的清晰认知,那么意识的出现,就不足为奇了。我们构建“自我”模型,是因为我们生活在充满“自我”的社会环境中,必须不断运用心智理论,来预测他人的想法和感受。当然,我们也需要理解自己也是一个“自我”,这不仅是因为我们自己的过去、现在和未来的经历非常重要,还因为我们对他人的模型中,也包含着他们对我们的模型。
几十年来,学界一直试图通过实证测试,来诊断心智理论能力的缺陷。当我们在大语言模型上运行这些测试时,毫不意外地发现,它们的表现与人类不相上下。毕竟,在训练模型的对话、故事和评论区数据中,自我意识和心智理论任务,本来就占据着重要地位。
我们的聊天机器人,同样依赖心智理论,在每次对话中,AI不仅需要构建用户模型,还要维持自身是一个友善助手的模型,以及用户对它的认知模型。如此递归建模,层层嵌套。
这就是第五个底层范式,集体智能。它让我们明白,智能的终极形态,从来都不是一个无所不能的单体超级智能,而是一个由无数智能体组成的、协作共生的智能生态。而AI的未来,就是融入这个生态,和人类一起拓展集体智能的边界。
结语:重塑人类未来的五大范式
讲到这里,我们就把这五大重塑人类未来的底层范式,全部讲完了。
- 自然计算,让我们明白,计算是宇宙的底层属性,而非人类的发明。
- 神经计算,让我们找到重构AI底层架构的核心方向。
- 预测智能,让我们终于触碰到了智能的本质。
- 通用智能,让我们接受AGI已经到来的现实。
- 集体智能,让我们看到了智能的终极形态,和AI发展的全新路径。
这五大范式是相互关联,相互支撑的,共同构成了AI时代,我们对计算和智能的全新认知。
就像当年的日心说,它不仅改变了我们对宇宙的看法,更改变了我们对人类自身的定位。今天的AI,也正在做同样的事情。它带来的最大的“哥白尼式”冲击,就是我们不得不接受,非人类的通用智能,会在我们这个时代,变得如此司空见惯。我们不再是宇宙中唯一的智能载体,就像当年我们发现,地球不是宇宙的中心一样。
当然,面对这样的范式革命,我们会焦虑,会恐惧,会争论,会动荡,这都是正常的。历史上所有的重大科学转折,都伴随着这样的阵痛。
但是,我们不能因为恐惧,就停下脚步。我们要做的,是像国际象棋中的“跳马”那样,在推进技术进步的同时,灵活跳出固有的认知框架,重新审视我们的既有假设,构建全新的理论基础。只有这样,我们才能开发出真正造福人类、推动科学进步、帮助我们更好地理解自身的智能系统。