弗朗索瓦:AI的未来在于“流体智能”和“像程序员一样思考”
在人工智能领域,我们正站在一个关键的十字路口。长期以来,AI的发展主要依赖于参数规模扩张,即通过不断增加模型大小和训练数据来提升性能。然而,正如人工智能专家弗朗索瓦(François)所强调的,这种方法已经触及瓶颈。他的核心观点是:真正的通用人工智能(AGI)并非仅仅是自动化现有任务,而是要实现具备流体智能(Fluid Intelligence)的AI,能够像人类一样应对和解决全新的、未曾预设的问题。这意味着AI需要从单一的“记忆型技能”转向 “测试适应” 能力,并最终发展成为一个 “像程序员一样思考” 的元学习系统,通过动态合成和重组抽象概念来解决问题,从而真正解锁创新并加速科学进步。
本文将深入探讨弗朗索瓦的这一前瞻性论断,剖析为何传统的规模扩张范式已不再奏效,以及“测试适应”和“双抽象理论”如何为实现真正的流体智能指明方向,最终描绘出一个AI作为“数字程序员”的未来图景。
规模扩张的局限性:记忆型技能与流体智能的鸿沟
长期以来,人工智能(AI)的发展深受计算成本持续下降和数据爆炸式增长的驱动,尤其是自2010年GPU计算和海量数据普及以来,深度学习在计算机视觉和自然语言处理领域取得了显著突破。然而,这种基于参数规模扩张(Scaling Law)的范式,即通过扩大模型规模和训练数据量来提升性能,虽然在各种基准测试中取得了惊人的成绩,却也暴露出其局限性——尤其在应对流体智能(Fluid Intelligence)方面。
弗朗索瓦指出,当前AI领域普遍存在的误区在于,许多人认为只要持续增大模型规模并灌输更多数据,便能自发涌现通用智能(AGI)。然而,这混淆了记忆型技能(Memorized Skills)与真正智能的本质区别。记忆型技能是静态且任务特定的,而通用智能则关乎理解全新事物、即时应变的能力。
为了凸显这一差异,弗朗索瓦在2019年发布了抽象与推理语料库(ARC-1) 基准测试。尽管GPT-4.5等模型在其他基准测试中表现出约5万倍的性能提升,但在ARC-1上的准确率却仅从零提升到约10%,这一微小的进步与人类95%以上的准确率形成鲜明对比。这表明,单纯扩大预训练和静态推理无法有效破解流体智力,需要超越现有框架的新思路。
测试适应:通向流体智能的曙光
转折点出现在2024年,AI研究社区开始转向全新的测试适应范式(Test-Time Adaptation)。这种范式强调模型在测试时动态调整自身状态以适应新事物的能力,而非依赖固化预加载知识。其核心在于推理时的学习与适应,而非单纯的记忆复述。
这种转变在ARC基准测试上取得了显著进展。特别是2024年12月,OpenAI展示了其经过专门微调的模型在ARC-1上首次达到人类水平的表现。弗朗索瓦强调,2025年标志着AI领域正式进入了“测试适应时代”,预训练扩展模式已不再是唯一主导范式。测试适应的核心在于模型能基于推理过程中遇到的具体数据动态调整自身行为,涵盖了诸如在线训练程序合成和思维链合成等技术。
智能的本质:从技能到过程
为了回答为何预训练扩展范式不再奏效以及适应性是否能实现流体智能等问题,我们必须回归根本——何为真正的智能?弗朗索瓦认为,智能并非仅仅是让机器执行人类任务(明斯基学派),而是让机器处理未被预先准备的问题(地图式观点)。
他提出了一个核心论断:智能是过程,技能是该过程的产物。技能本身并非智能。 拥有再多的道路网络(技能)也无法应对新的连接需求,而拥有道路建设公司(智能)则能随时连接新的A和B点。因此,将智能归因于固化的行为程序是一种范畴错误,混淆了过程与输出。
更精确地定义,智能是信息转换效率,即从过往经验和先验知识中高效地将信息转化为行动的能力,以应对高新颖性和不确定性的潜在未来情境。这是一种效率比率,这也解释了为何传统基于考试的基准测试不足以衡量AGI,因为它们旨在测量特定任务和技能,而非应对未知情境的能力。
构建可测量的智能:ARC-GI与新基准
作为工程师,我们只能构建可测量的事物。因此,对智能的定义和测量方式至关重要。过去数十年专注于特定任务技能的定义,导致了当前系统的特点——自动化。然而,我们真正需要的是具备自主创新能力的AI,能够应对人类最艰巨挑战并加速科学进步。
弗朗索瓦在2019年发布的ARC-1旨在挑战深度学习的静态推理模式。ARC-1任务的独特之处在于无法通过记忆模式直接解答,它真正需要通过通用智能即时解决,而非依赖记忆知识。人类儿童能够轻松应对这类问题,但最先进的AI模型却步履维艰,这警示我们AI仍有所缺失。ARC-1并非终点,而是一个“箭头”,指向正确的方向,它明确指出流体智力并非通过扩大预训练规模产生,而是需要适应性调整。
鉴于ARC-1已出现饱和,弗朗索瓦及其团队于2025年3月发布了ARC-AGI 2。ARC-2改变了推理系统,引入了测试适应模式,更注重探测分析、组合泛化能力。虽然任务复杂度大幅提升,但仍适合人类完成。目前顶尖的AI模型在ARC-2上表现仍不佳,仅有1-2%的准确率,远未达到人类水平。这再次证明,只要我们能轻易设计出人类能解决但AI无法解决的任务,通用智能就尚未实现。
未来,他们还将推出ARC-AGI 3,它在输入输出格式上与前两代有显著差异,旨在评估AI的自主性、探索、学习和交互能力。ARC-3将AI置于全新环境,要求其自主推断任务、目标和游戏机制。效率将是ARC-3设计的核心,模型不仅要完成任务,还要看解决效率,目标与人类动作效率相当。
智能的底层机制:万花筒假说与双抽象理论
那么,除了适应性,AI的下一步可能是什么?弗朗索瓦提出了万花筒假说:我们周围的世界看似充满无尽的新奇与复杂,但描述所需的独特“意义原子”数量其实非常少,一切都是这些原子的重组。智能是挖掘经验的能力,识别可在不同情境中复用的“意义原子”(即抽象概念),并在不同任务中复用。这需要统一的不变结构,即那些看似重复的原则、构建模块。
实现智能需要两个关键部分:
- 抽象获取:高效从过往经验中提取可复用的抽象概念。
- 即时重组:高效选择并重组这些模块构建适配模型。
效率至关重要,智能不仅取决于能否完成某事,更取决于从有限经验中高效获取优质抽象,并高效重组以应对新奇。
弗朗索瓦进一步解释了深度学习模型为何在流体智能上受挫。这些模型缺乏实时重组能力,它们在训练阶段虽然学到了很多有用的抽象概念,但在测试时却完全静态化,只能调用预存的模板。适应性技术正是通过为AI系统添加实时重组能力来解决这一关键问题。
另一个问题是,这些模型仍然极其低效,例如梯度下降法需要大量数据来提炼简单抽象,所需数据量是人类的几倍甚至几十倍。即使是最新顶尖技术,解决ARC-1仍需数千美元的计算资源,且无法扩展到ARC-2。根本问题在于深度学习模型缺乏组合泛化能力,这正是ARC-2试图测量的。
弗朗索瓦提出了两种类型的抽象:
- 类型一(以值为中心/连续距离函数):涉及感知模式、认知和直觉,例如现代机器学习和Transformer模型擅长的任务。
- 类型二(以程序为中心/离散程序搜索):涉及比较离散程序、图结构和子图同构,这是人类推理的基础,也是软件工程师重构代码时所做的。
深度学习擅长类型一抽象,但在类型二抽象上表现不佳。要实现类型二,必须利用离散程序搜索,而非单纯操作连续插值空间。今日所有具备发明能力的AI系统都依赖网格搜索,而非深度学习。
弗朗索瓦认为,真正的潜力在于将类型一和类型二抽象结合起来,这正是人类智能的优势所在——我们结合感知与直觉,与明确的逐步推理。核心思想是利用类型一的快速但近似判断,来对抗类型二程序搜索中的组合爆炸问题。
AI的未来:像程序员一样思考
未来的AI将趋向于更像程序员的系统。面对新任务时,像程序员的元学习器会即时合成适应任务的程序或模型,利用离散程序搜索系统组装,并由深度学习对程序空间结构的直觉引导。这种搜索并非从零开始,而是利用可复用的抽象组件全局库,该库持续进化,学习新任务。当新问题出现时,系统将在库中搜索相关组件,在解决新问题过程中,合成新组件并将其上传回库中。
最终目标是让AI能应对全新情境,利用丰富的抽象库快速组装工作模型,就像人类软件工程师能快速创建软件一样,通过利用现有工具解决新问题。这种AI将通过扩展其抽象库和优化对程序空间结构的直觉认知而不断自我提升。
弗朗索瓦在印度启动的研究实验室正是致力于构建这种具备独立发明与发现能力的AI,能够拓展知识前沿,而不仅仅是局限于其中。他们相信,通过深度学习引导的程序搜索来构建类似程序员的元学习系统,并辅以测试来验证进展,将是实现这一加速的关键。
弗朗索瓦的愿景为我们勾勒了一个激动人心的AI发展方向,强调从自动化到创新的根本性转变。您认为,这种“像程序员一样思考”的AI系统在实际应用中会带来哪些颠覆性的变化?
欢迎关注+点赞+推荐+转发