AI Native 的来时路

前言

大概在 24 年 9 月份，我在 LLM in 2024 里对 AI 的观点是这样的：

我个人对 AI(人工智能)/LLM(Large Language Model, 大语言模型) 是完全祛魅的。即使是在 ChatGPT 问世之后，即使是在 LLM 在各个领域掀起热潮的今天，我也仍然认为这里并没有什么所谓“智能”的东西——我个人不认为现在的 LLM 会思考，不认为它能真正地创作等等。我更倾向于将现在的 LLM 看作一个庞大而又精密的机器：庞大到包含几百亿个元件，精密到可以和人类对话并完成各种复杂的任务。尽管如此，我仍然认为我们正处于一个人工智能的黄金时代，一个 AI 可以大放异彩，可以很大程度上改变我们的未来生活方式的时代！

如今已经是 26 年 3 月份，新时代的一切已经悄然到来。个人的观点是，新时代开启的时间节点或许就是在 25 年 11 月 18 日，也就是 Gemini 3 Pro 的发布。Gemini 3 Pro 在前端编程领域的能力第一次让我有了“未来已来”的感觉。一天后，OpenAI 于 2025 年 11 月 19 日发布了 GPT-5.1-Codex-Max；又过 5 天，Anthropic 于 2025 年 11 月 24 日发布了 Claude Opus 4.5。Opus 4.5 和 GPT-5.1-Codex-Max 两款模型在编程能力上已经到了非常高的水平，像是跨过了某种门槛。我无法命名这个门槛，但是我相信这个时间节点相当重要。而 AI 在编程领域的能力飞跃也直接开启了一个崭新的时代——AI Native 时代。AI 编程这几年的演变便是 AI Native 时代的来时路。

AI 编程能力的飞跃

在 LLM in 2024 里，我们重点讨论了 LLM 在编程和搜索领域的巨大潜力。比如在 AI 编程领域：

… AI 辅助编程在生成数据分析报告、辅助编写 SQL 等方面也有着不错的表现。这点在上面的博客中也有提到，而我个人在日常工作中也深有体会：AI 已经在实打实地帮助我们减轻很多工作量。

我并不认为 AI 会取代真正的程序员 (未来也不会)，但其换掉这些琐碎的编码工作是大势所趋。当然这里的“琐碎”是相对的，比如我需要一个 Web 页面来简单地展示数据，这个工作对于我来说就是琐碎的；但是如果我们需要的是一个拥有良好交互体验且具有相当程度美观性的页面，那么这个工作可能就不再是琐碎的了。同样地，对于数据分析也是，如果我们只需要简单地统计一下数据，那么这个工作就是琐碎的；如果我们需要从海量数据中找出一些有价值的信息，那么这个工作就不再是琐碎的了。

如今回头看，当时的想法还是过于保守了。那时我认为 AI 可以大幅减轻工作量，却并未想到它会真正影响我们的编程方式。让我们以前端开发为例 (因为作者本人几乎完全不懂前端开发，从这个角度看有更深的体会)，来回顾 AI 编程能力变迁的历程。

复制粘贴时代

我在 2023 年 11 月份左右完成了自己的第一个前端项目 calvino（注意：现在并不是它当时的样子 :)）。这是一个纯粹个人爱好的项目：我把卡尔维诺《看不见的城市》中描绘的 55 个城市用 DALL-E 3 生成图片，然后连同文本一起展示出来。

这个项目初期，很多不懂的地方基本上都是通过和 ChatGPT 对话解决的：我先描述功能，让 GPT 给出代码，然后复制粘贴过来；有报错就再贴给 GPT，通过对话找到问题后手动修复。在这个阶段，人基本上还是编程过程中的绝对主导方。

Tab 时代

之后到了 24 年，以 Cursor 为代表的 AI 编程工具迅速崛起，编程变得前所未有的高效，很多代码片段都可以直接由 AI 生成 (Tab 补全)。这个阶段，我认为大部分的功劳要归功于 2024 年 6 月 21 日 Anthropic 发布的 Claude 3.5 Sonnet。个人认为 Claude 3.5 Sonnet 是第一个在真正意义上可以大幅提升编程效率的模型。

这个阶段中，无论是公司的代码还是个人项目 (包括上面的前端项目)，基本都不再需要复制粘贴了，Tab 基本可以做到函数级别的补全。一个直观的理解是：我们从“Ctrl-C + Ctrl-V”的复杂操作时代，过渡到了一键“Tab”的简单操作时代。

Agent 时代

在 Claude 3.5 Sonnet 发布后，AI 的能力已经隐约跨过了一道无形的门槛。我不知道如何命名这个门槛，但事实是，跨越这个门槛之后，以前的很多不可能已经变得可能。之后随着模型能力的不断增强，我们逐渐来到了 Coding Agent 时代——几乎解放双手的编程时代！如今在各种 AI IDE 内，简单几句话就可以完成一个相当复杂的编程任务。

现在让 AI 写一些前端页面，已经变得前所未有地简单，比较有代表性的例子就是 Gemini 3 Pro（未降智的版本）。这个模型在前端领域的编程能力已经达到了相当高的水平，几乎可以胜任大部分的前端开发任务。印象比较深的是当时 V 站上的一条热帖过去 2 周，我用 Gemini 3 把 42 本书，分别转化成了网页，也可以直接点击去 Vibary 查看效果。

这个项目让我意识到，我们编程的方式可能已经在悄然发生变化。变化在哪里？在看到这个项目之前，我对前端开发的理解还是尽可能地“复用”，样式也好，组件也好，都是尽可能去复用已有的东西。毕竟一直以来，复用是编程领域一条默认的最佳实践。但是，现在有了 AI 之后，我们有了不复用的可能性。（这里声明一下，在大型项目中，复用仍然是必要的。这里说的仅仅是一种不再考虑复用的可能性。）比如这种创意项目，我们完全可以让 AI 帮我们定制每一个页面，而不需要考虑复用已有的组件和样式。所以，我连忙去让 Gemini 3 Pro 帮我把 calvino 重新写了一遍 (现在的版本就是用 Gemini 3 Pro 重写的)——55 个城市，每个页面都是不一样的样式和布局，完全定制化的页面设计！这便是 AI 编程带来的新可能性。

AI 拥有的超高的代码生产效率改变了很多事情：原本慢而好的一切都会变得快而好。在 AI 编程时代之前，复用是为了节省时间和精力——我们几乎不太可能为每个小的页面都重新设计和编码。但是在 AI 编程时代，这个限制被打破了。我们完全可以为每个页面都重新设计和编码，因为 AI 可以在极短的时间内相当自主地完成这些工作。

Agent 时代写代码大致可以分为两个阶段：第一个阶段，几乎解放双手，AI 完全自主写代码，仅由人工 Review 核心代码；第二个阶段，AI 完全自主写代码，几乎不再需要人工干预。坦白说，我目前还无法做到完全不 Review 代码。究其根本，还是我对 Agent 的驾驭能力以及对相关领域的理解程度，还不足以支撑让 AI 完全自主地完成工作。我认为这是一个需要长期实践才能逐渐达到的阶段。很多人对于完全不 Review 代码持怀疑态度（俺也一样），下面这个老板和员工的例子可以帮助我们更好地理解这里人与 AI 的关系：就像老板相信员工可以写出完全符合标准的代码一样，我们为什么不能相信 AI 也可以做到呢？有人可能会说，员工写的代码也会有人来 Review。这没问题，我们也完全可以找另外一个 Agent 来专门 Review 代码。所以，本质上的问题在于，我们是否把 AI 当成一个合格的程序员。我认为在纯粹写代码这件事上，现在的 AI 已经完全够资格了，其他一些欠缺之处的补足也只是时间问题。

在 2024 年某个按 Tab 键按到手麻的下午，我完全没有想到 Tab 键会这么快变为历史的尘埃。在我们讨论 Coding Agent 如何演进到现在这个水平的同时，它的影响力已经不仅仅局限在 Coding 本身了。 Agent 卓越的编程能力已经为下一个时代的开启准备好了钥匙。

AI Native 时代

我是从 2025-11-23 开始写这篇博客的，断断续续写了一两个月，一直没写完……因为我自己也不知道 Agent 时代之后会是什么，而这恰恰是一个无法回避的问题。我能感觉到某种崭新的东西在萌发，但我无法准确地描述它，直到后来我看到 Frost 写的创造一只龙虾，需要些什么？：

3.0 时代是 AI native，AI 自己管理自己的工具和技能，甚至自己写代码来实现功能，完全不需要人类的干预，当它是黑箱就行

这个崭新的东西就是 AI Native。让我们稍微回顾一下前面的转变，其实有一条核心线索，那就是 AI 写代码的能力越来越强；有了各种 Tool、Skill 以及其他集成之后，它的自主性（或者说连续工作的能力）也越来越强了，强大到我们几乎可以将其看作一个合格的程序员，而不再只是一个辅助人类的工具。我们可以只为 Agent 提供基础能力（比如 Pi 只提供了 read、write、edit、bash 这几个基础工具）作为人工定义的核心，其他所有能力都让它在实践中自我演化出来。

这个视角看似直观，但其实我花了很多时间，自己折腾了一个类似 openclaw 的 agent，才真正理解它。为了便于理解这个视角，容我再举个例子做个简单说明。比如我现在有个需求，是获取最近几天 Hacker News 和 Reddit 上关于 LLM 上下文的帖子。非 AI Native 的做法，可能是告诉 Agent 两个论坛的地址，然后让它写个脚本去获取帖子，并筛选出相关内容。而 AI Native 的做法，则只是告诉它你的需求：“获取最近几天 Hacker News 和 Reddit 上关于 LLM 上下文的帖子。”中间的全部过程都让 Agent 自主执行：Agent 可以自主调用 bash 工具，比如用 curl 进行联网搜索，自行搜索两个论坛的地址、论坛 API 接口文档或已有开源代码等；然后再根据搜集到的信息写代码，创建一个用于技术帖子抓取的 skill，利用这个 skill 自动获取帖子并按要求过滤内容，最后返回结果。对比之下可以发现，后者的方式其实就是赋予 Agent 更多的自主性，让它自己通过探索和发现来完成任务，同时不断增强自己的技能（例子中的 skill 是可以复用的）。

这里其实存在一个无法绕过的问题：为什么我们让 Agent 自主去探索，而不是直接为它指明执行路径呢？（而且这样看起来效率更高。）其实是可以的，我们完全可以这样做，比如直接把链接或 API 文档贴上去让 Agent 去执行后续任务。其实这里隐含着一个更加核心的问题：如果 Agent 在没有额外提示的情况下也可以完成某件事，那么我们的提示到底是不是必须的？或者说，如果我们可以用更少的输入就得到想要的结果（当然要牺牲一些时间），那我们是否还要选择另一条更重定制、引导更多的路径？就我个人而言，我更倾向于选择输入更少的方式，因为这种方式可以尽可能少地做定制，并以此保持核心框架的简洁。至于更长的运行时间，其实基本上只出现在首次执行的时候：在首次执行后，我们可以将对应的知识沉淀为代码和文档（或者说，沉淀为 skills），之后当 Agent 收到类似请求时，就可以跳过这个“探索发现”的过程，直接执行任务，效率上并不会差。回到问题本身，自主探索和指明路径本身其实都是形式而已，AI Native 本质并不在于这里，而在于让 Agent 可以沉淀和复用 Skill。我们让 Agent 不断探索各种方向，然后将走通的路径都沉淀为自己的技能。随着探索的不断进行，Agent 总能将一个领域大多数的场景跑通并沉淀为自己的技能，最终成为这个领域的专家。而更关键的一点是，Agent 本身只是程序，它可以 24 小时不间断地去探索、尝试、增加或优化技能…… 这使得其可以在短时间内掌握大量的技能——这是目前大部分人类也无法做到的。

现在，我们再次审视这里的 AI Native，其实就有些像在不断培养一位学生：他开始时只有一些基础的听说读写技能，我们稍加引导，或者直接抛出一个问题让他去解决。因为他足够聪明（当前 LLM 的智力已然不低），也足够勤奋（可以 24 小时学习 :)），而且好问（遇到无法解决的问题会主动寻求人的帮助，即 Human in the Loop），所以其能力快速成长几乎是必然的。

循此苦旅，以达天际

AI Native 的视角带来了很多值得尝试的方向，目前看起来也是一条解决各个领域问题的通用方法论。但是这种让 Agent 自主成长的方式依然不够成熟，面临着来自工程侧和模型侧的诸多挑战。比如生成的 Skill 并不完善，Skill 之间职责不清晰，长期运行下来 Skill 数量爆炸等问题。当然本质问题还是目前大模型本身的局限性：上下文限制使得我们必须精细构建 Agent Context；自回归的推理方式使得我们必须考虑推理性能的问题。

但是这些问题都在被逐渐解决，模型的能力越来越强，推理速度越来越快，工程侧的问题也可以通过各种权衡方案来缓解。所以长期来看，我认为我们仍然处于一条几乎可以确认到达 AI Native 的道路上。