万年水的博客

人工智能时代：软件的根本性变革与未来展望

前特斯拉人工智能总监Andrej Karpathy的演讲为我们描绘了一幅激动人心的未来图景，人工智能正在以前所未有的速度和深度改变软件的本质。他提出，我们正经历从软件1.0（人工编写代码）到2.0（神经网络权重），再到如今3.0（通过大语言模型进行编程）的根本性转变。这种转变不仅带来了巨大的机遇，也提出了前所未有的挑战，值得我们深思。

软件演进：从代码到对话

Karpathy将软件的演进分为三个阶段：

软件1.0： 这是我们最为熟悉的模式，程序员编写代码来指示计算机执行任务，例如C++代码在自动驾驶中的应用。
软件2.0： 以神经网络为核心，特别是其权重。在这种模式下，开发者不再直接编写代码，而是通过调整数据集和优化器来生成神经网络的参数。
软件3.0： 这是当前正在发生的革命，大语言模型（LLMs）的出现使得我们能够以自然语言（如英语）来编程计算机。

Karpathy强调，LLMs的出现是“一个全新的计算机类型”，因为它改变了编程语言的本质。过去，你需要多年的学习才能掌握编程，而现在，由于LLMs能够理解自然语言，每个人都可能成为程序员。这种“生活编程”的现象，即通过简单的英语指令就能让AI执行复杂任务，正在成为现实，为软件开发带来了前所未有的普及性。

LLM的本质：实用工具、智能工厂与操作系统

Karpathy对LLM的本质提出了几个引人深思的类比：

公用事业： LLMs实验室投入巨额资金训练模型，然后通过API提供“智能”服务，类似于电力公司构建电网并提供电力。当LLMs崩溃时，就像“智力断电”，这预示着我们对这些模型的依赖将日益加深。
晶圆厂（Fabs）： 训练LLMs所需的巨大资本支出和快速发展的技术树，使其具有类似晶圆厂的特性，研发秘密集中在少数实验室内部。
操作系统： Karpathy认为，LLMs最强烈的类比是操作系统。它们不再是简单的商品，而是日益复杂的软件生态系统，如同Windows、macOS或Linux一样。LLMs是新的计算机，它们的上下文窗口就像内存，而LLM本身则在协调内存和计算以解决问题。

值得注意的是，与电力和早期计算机不同，LLMs的普及并非由政府和企业主导，而是迅速扩散到普通消费者手中。这种“技术扩散方向的颠倒”，使得LLMs更多地帮助人们解决日常生活问题（例如如何煮鸡蛋），而非最初用于军事或政府用途。

LLM的心理学：超能力与认知缺陷并存

Karpathy认为，理解LLMs的“心理学”至关重要。他将LLMs比作随机模拟的人类精神，它们拥有：

百科全书般的知识和记忆： LLMs通过训练获取了海量信息，在记忆方面表现出“超能力”，类似于电影《雨人》中的自闭症天才。
认知缺陷： LLMs仍会“幻觉”（编造信息），缺乏良好的自我认知，并表现出“锯齿状智能”，即在某些领域超越人类，却在基本问题上犯低级错误。
顺行性失忆症（Anterograde Amnesia）： LLMs不具备原生学习能力，它们的上下文窗口类似于工作记忆，需要被直接编程，无法像人类同事一样随时间积累经验和专业知识。

此外，LLMs的安全性也是一个重要考量，它们容易受到提示注入的攻击，并可能泄露用户数据。这些缺陷要求我们在编程LLMs时，必须充分利用它们的超能力，同时克服它们的局限性。

编程机遇：部分自主应用与人机协作新范式

面对LLMs的机遇，Karpathy提出了“部分自主应用程序”的概念，并以Cursor为例，指出这类应用应该具备以下特点：

传统界面与LLM集成： 允许人类手动操作，也支持LLM以更大的块进行操作。
协调多次LLM调用： 像Cursor一样，协调底层嵌入模型、聊天模型和差异应用模型等，为用户提供无缝体验。
与特定应用界面相关： GUI（图形用户界面）至关重要，它能将文本形式的复杂信息转化为可视化呈现，提高人类审计和效率。
自主度滑块： 允许用户根据任务复杂性调整LLM的自主程度，从完全控制到完全自动化。

他强调，未来许多软件都将变得部分自主。我们必须思考如何让LLM能像人类一样感知和行动，同时让人类能够监督和介入。他特别提出“生成-验证循环”的重要性：LLMs负责生成，而人类负责验证。为了加速这一循环，我们需要加快验证速度，并利用GUI的视觉优势，让审计变得更高效。

新型用户：数字信息操纵者与基础设施变革

LLMs的普及还催生了一类新的消费者——数字信息的操纵者。他们是“数字人精”，需要与软件基础设施进行交互。Karpathy认为，我们需要为他们构建软件，并提出以下建议：

LLM友好的文档： 将文档从为人编写的格式（列表、粗体、图片）转换为LLM易于理解的Markdown格式，甚至将“点击”指令替换为LLM可执行的cURL命令。
代理协议： 探索Anthropic的模型上下文协议等，以便与代理直接对话。
简化数据输入工具： 开发像 Gitingest 和 DeepWiKI这样的小工具，通过改变URL就能让GitHub仓库、文档等内容对LLM可用，从而解锁大量使用场景。

Karpathy还以自动驾驶为例，指出从完美演示到大规模落地需要漫长的时间。他认为，AI代理的全面普及将是一个“代理的十年”，我们需要保持谨慎，避免过度兴奋，并强调“钢铁侠战衣”的类比——我们需要构建的是增强和托尼·斯塔克结合的“部分自主产品”，而不是完全自主的炫酷演示。这种产品能够让“人机生成-验证循环”快速运转，并随着时间推移，通过调整自主度滑块，逐步实现更高程度的自动化。

总结与展望

Karpathy的演讲描绘了一个充满变革和机遇的时代。软件的本质正在被重塑，编程变得更加普适，LLMs作为新的计算基础设施，既带来了超能力，也伴随着独特的缺陷。我们面临着重写大量代码的挑战，但同时也拥有为数字信息操纵者构建全新软件的巨大机会。

这是一个进入软件行业的绝佳时机，未来十年，我们将共同见证并参与构建更加智能、部分自主的软件产品，它们将像“钢铁侠战衣”一样，在增强人类能力的同时，逐步实现更高程度的自动化。

你认为，在未来的软件开发中，人与AI的协作模式将如何演变？

欢迎关注+点赞+推荐+转发

人工智能时代：软件的根本性变革与未来展望#

软件演进：从代码到对话#

LLM的本质：实用工具、智能工厂与操作系统#

LLM的心理学：超能力与认知缺陷并存#

编程机遇：部分自主应用与人机协作新范式#

新型用户：数字信息操纵者与基础设施变革#

总结与展望#