当AI吞噬一切可训练之物后，真正的价值将何去何从？

编者按：当AI能力持续跃迁，投资圈出现了一种新的悲观判断：如果模型越来越强，所有应用公司终将被Anthropic、OpenAI、Nvidia这类模型与算力层吞噬，市场最后只剩下前沿模型、算力和少数基础设施。但Conviction的Sarah Guo认为，这种判断只说对了一半。那些“薄包装”确实会被吸收，凡是能够被基准测试衡量、被公开数据训练、被低成本验证的任务，都会逐渐商品化。真正的问题是：AI吞噬一切可训练之物后，什么仍然不可训练？

本文的答案是那些存在于真实组织内部、无法从外部轻易复制的价值：企业私有数据、复杂工作流、用户信任、系统权限、行业判断、合规责任，以及长期运行中积累出的经验。模型可以更聪明，却不能自动进入银行的生产系统；可以生成医疗答案，却不能直接获得医生的信任和医院的决策流程；可以写出法律文本，却不能替资深律师承担责任，也不能凭空定义什么才是合格的法律工作。

AI价值吸收边界矩阵示意图

因此，未来真正有护城河的AI公司，不是简单地比通用模型更聪明，而是深入某个行业内部，完成艰难但关键的“翻译”工作：把客户的私有现实、工具、流程和判断标准整理成模型可以行动的系统，并在长期服务中逐渐写下“什么才算好结果”的定义。AI越强，越会让可衡量、可复制的任务贬值；也越会凸显那些带有历史、关系、权限和专业判断的“不可训练之物”。这才是模型吞噬之后，仍然可能保留下来的真正价值。

可被看清的工作正在离开，真正的价值不可读

2026年中，投资者版本的“AI精神错乱”，是一种认为已经没有任何东西值得投资的绝望感。但这种绝望并不愚蠢。它的逻辑是：如果模型在所有事情上都持续变强，那么所有建立在模型之上的公司，都只是等待被模型吸收的薄薄一层外壳；最终能保留下来的价值，只剩算力和前沿模型权重。

以软件为例。Devin在2024年发布时，只能解决标准软件基准测试中13%的任务。一年半之后，最强的Agent已经能达到80%多的高分，并且开始在高盛和美国陆军内部处理真实工作。几乎所有人都得出了同一个错误结论：模型吞掉了软件工程。

但当模型吞下了软件工程中最容易被衡量的那部分之后，我们也在重新认识许多团队早就知道的一点：工程本来就一直抗拒衡量，而最容易被衡量的部分，未必就是唯一重要的部分。

MIT的Mert Demirer及其合作者量化了这一现象：在超过10万名开发者中，最新一代编码Agent让代码编写量大约提升了180%，但真正交付上线的代码量只提升了约30%。写代码变便宜了，但剩下的环节仍然要经过人，而且这些环节很重要。

编码Agent效率提升数据图表

基准测试，是一种你可以衡量的东西；而任何可以被衡量的东西，都可以被拿来训练。因此，编码Agent最先成熟：编译器是免费的验证器，测试套件也是免费的验证器。当答案几乎可以零成本地自我检查时，你就可以围绕这个检查信号不断打磨，直到把它打穿。

但通过测试从来不意味着这个改动对一个已经运行了十年的代码库来说就是正确的。这种正确性无法从排行榜上读出来，甚至也无法真正从任何东西里直接读出来。你只能让一个如此复杂的系统在真实世界里运行足够久，才能知道它是否真的有效。而更聪明的模型，并不会让真实世界运行得更快。

“不可训练”的角落：私有环境中的前沿工作

可读的工作会从两个方向被吞掉。从下方看，任务会饱和：一旦某项工作可以被低成本检查，买家就不再关心是哪一个模型完成了它，而是开始问它要多少钱。于是，这项工作就会落到当周最便宜的开源模型或蒸馏模型手里。

从上方看，实验室正在尝试让模型吞掉自己的脚手架。检索、便宜调用与昂贵调用之间的路由、工具使用，甚至推理策略——所有曾经包裹在模型外面的装置，都正在被拉进模型权重之中，直到“外壳”本身变成模型。这就是吸收边界。

利润压力也会从另一个方向发挥作用：一个通用Agent必须随时准备处理任何事情，因此成本很高；而一个聚焦型应用可以把一个工作流调优到极致，让它只消耗一小部分token。并且，与出售这些token的实验室不同，应用公司可以把中间的差额留下来。

因此，我们可以向任何一种工作提出两个问题：它的正确性是不是私有的、昂贵的，是否是一种只存在于某家公司数据内部的真相？它是否被隔离在一个外人无法进入的系统之内？

真正的奖品，是“不可训练”的角落：前沿工作，但其正确性只存在于私有环境之中。你可以在为AI原生先行者提供服务的推理云上看到这一点：绝大多数token都是由定制模型生成的，而不是由通用开源模型生成的。

权限与责任：AI无法跨越的门槛

通往这个最后角落的墙，有高有低。一个开发者的玩具代码库是可迁移、标准化的，所以爬进去并不难。但一家银行的生产系统既不可迁移，也不标准化。你不会因为在SWE-Bench Verified上聪明了2%，就获得它的root权限。

能力会吞掉很多东西，但更好的模型不会让私有的真实标准变成公开标准。它不会持有许可证，不会为责任签字，也不拥有公司的文件；当答案出错时，它也不能成为被起诉的一方。这里的瓶颈不是智能，而是权限，也是责任。你可以想象一个远比任何人都聪明的模型，但它仍然必须被允许进门，而且仍然必须有人为它做的事情签上自己的名字。

AI系统权限与责任控制示意图

那扇门有一道锁，还有一道门闩。那道锁是环境：只有在一个系统内部获得信任之后，经过安全审查、完成集成、签下带有结果责任的合同，你才能验证AI是否真的做了有用的事。

那道门闩是用户。如今，大多数美国医生每天都会打开OpenEvidence，这不是任何算力都能买来的。一家实验室明天就可以训练出一个完美的医疗模型，但它依然没有办法进入医生的使用习惯，也没有办法进入UCSF的决策流程。因为信任是慢慢建立起来的，靠关系、靠用户的默许，而不是靠梯度下降把这些东西抹掉。

应用公司的价值：完成艰难的“翻译”工作

这也正是应用公司的工作。一款应用之所以能在“不可训练”的角落里占据位置，靠的是那些并不光鲜的工作：整理一家公司的私有现实，让模型能够基于它行动；把行动工具交给模型；与客户一起改变其劳动力的实际运作方式。

一家能够完成这种“翻译”的公司很难被复制，而且这种翻译永远不会结束。集成和维护会随着客户关系一直持续下去。赢下这件事的，是那些把领域专精工程师和工具放到客户身边的团队。

举个例子，在一家顶级老牌律所里，光是并购业务每年就接近一千宗交易。你不能让几百名律师助理分别把客户文件下载到桌面，然后交给一个通用Agent去通读。保密原因就已经不允许这样做，更不用说还有十几个其他问题。即便可以这样做，你学到的也只是碎片：一个助理一次纠正一点，没有人能看见一整宗交易是如何流动的。

为结果定价：从内部定义“好”的标准

不幸的是，不可读的价值也很难销售，原因和它难以商品化一样：一家公司无法从外部判断，AI到底能不能像基准测试显示的那样改造它的运营。因此，最强的公司会停止试图在外部证明自己，而是先进入客户内部，然后为结果定价。

Sierra只有在它的Agent解决了客户问题时才收费；如果问题被转交给人类，它就不收费。因此，价格本身变成了评估机制。而这之所以成立，是因为Sierra拥有“已解决”的定义权。Cognition的Devin在软件领域做了同样的事，推出“性能保证”。只有当你被信任地进入一个系统内部时，才有资格为结果提供这种保证。

即便是在提供token服务这一层——也就是所有人都喜欢称之为纯商品的那一层——它的表现也并不像商品。最好的AI原生公司会把服务集中在一到两家供应商那里，比如Baseten或Fireworks。因为每token成本会按时走向商品化，但真实流量下的可靠性，以及对稀缺算力的稳定获取，并不会商品化。

模型层的竞争格局

一个常见反驳是：实验室是你的供应商，为什么它不会用自家第一方产品低于成本倾销，把你拖死？或者直接撤销你的API访问权限，自己拿走这个市场？但这只有在模型层是单人游戏时才成立。

很明显，事实并非如此。模型层更像是一场三家半玩家的死亡竞赛，旁边还有一批训练进度落后大约六个月的国际玩家，以及一个规模是去年的五倍的发展联盟。客户希望自己的供应商之间存在竞争，而实验室想要市场份额，胜过想要杀死任何一个具体应用。

你可以在实验室正面竞争的市场里看到这一点。在消费者聊天场景里，最好的模型从来没有简单地赢下全部市场。ChatGPT在多年真实竞争中一直保持领先；它现在失去的份额，流向的是Gemini，而原因是Android和搜索的分发能力，并不是模型更好。

如果一个更好的模型都无法在最核心的应用中夺走竞争对手的用户，它也不会轻易通过集成吃下一家医院的病历系统，或一家银行的责任体系。今天，公众选择产品依据的东西，不只是编码能力。如果前沿模型层依然拥挤，那么它上方的应用层就会有价值。

定义“好”：从内部权威到外部标准

如果一项工作无法从外部评分，那么内部就必须有人来决定什么才算是好答案。而这个决定，就是整个游戏本身。足够多这样的决定被写下来，就会变成基准测试。Harvey发布了法律领域的基准测试，Sierra发布了语音Agent的基准测试。你之所以有权定义一个领域里的“好”是什么意思，是因为这个领域已经在使用你。

AI价值评估框架

真正决定金钱流向的评估，是私有的、逐公司形成的：这家公司，在这种事项上，会接受什么作为好工作。而这件事远远没有完成，因为法律的深度远远超过任何公开测试。OpenEvidence正在沉淀什么才是安全的临床答案。

这一切其实都不是真正意义上的“测量”，而是关于什么是真的、什么是好的判断。这些判断被写下来，直到变成其他所有人都要接受衡量的标准。无论基础模型实验室变得多聪明，它都无法凭空写出这些标准，因为这种地位只存在于领域内部。

生存策略：专用模型与通用模型的竞争

吸收边界还会继续上升，因为我们会不断学会衡量更多工作，而可衡量之物会被吞掉。不可训练的地面会在站在上面的人脚下不断缩小，所以你不能找到一个可防守的位置就停下来。你必须不断走向那些还无法被评分的地方，并且持续重新承保、重新判断风险。

在一个狭窄任务上，凭借你的私有数据和你自己的评估体系，你可以训练到前沿水平，并在关键场景中击败通用模型；这个专用模型会成为护城河的一部分。另一方面，如果你是在通用模型能力上竞争，那就是一场资本战争，你会输给拥有最多算力的人。这也是那些只有浅层访问权限、任务又高度可读的公司最容易落入的陷阱。

当一家公司为了生存而决定在一大片通用任务上训练出超过前沿模型的能力时，胜负看起来通常已经由数据中心规模决定。最后的结局往往不是出现一个独立冠军，而是被卖给某个算力充足的玩家。

结语：不可训练之物的价值

以上都是防守。更难的是进攻：首先决定到底要建什么。模型在这件事上帮不上忙。你把它指向哪里，它就会做什么；但它无法告诉你什么值得被指向。你无法为此建立基准测试，因此也无法训练它。

这也是为什么既有巨头不会拿走一切：它们会守住自己已经拥有的地盘，而下一个东西来自某个在其他人之前发现用途的人。也许，意图是一种比算力更加稀缺的输入。

这种绝望感有一半是对的。薄外壳层确实正在被吸收，而今天很多看起来像公司的东西，确实只是薄外壳。但它对于“吸收之后还剩下什么”的判断是错的。机制是清楚的，终点却不是。

智能会继续变得更便宜，而价值会继续滑向少数几个模型无法抵达的地方。不可训练之物，是带有历史的价值。

所以，进入其中一个这样的领域，去做那些并不光鲜的翻译工作，然后开始写下那里“好”的定义。因为总有人会这么做。今年最常被引用的基准测试分数，其实是一张即将变得一文不值的领地图，也是一份通知：通知某些人，他们即将失去定义什么才算“好”的权利。

原文作者：Sarah Guo，Conviction
原文编译：Peggy，BlockBeats