斯坦福423页AI报告出炉：中国模型追平美国，95%企业AI投资零回报

117 | 2026-04-29 12:49

文丨博阳

编辑丨徐青阳

美国时间 4 月 13 日，斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2026 年 AI 指数报告》，全文长达 423 页。

这份自 2017 年起每年发布的报告，已成为追踪人工智能行业发展最为全面的年度文献，涵盖模型发布数量与来源、行业资本流入、劳动力市场变化、能源消耗与环境影响，以及公众态度等多个维度。

2026 年的报告揭示了一个能力正在快速突破的行业，同时也引发了关于环境成本、技术透明度以及谁能从这项技术中真正受益的紧迫问题。

以下为最新报告精炼版：

01 最后 2.7% 的博弈，中美模型性能的"平权时代"

长期以来，硅谷一直被视为全球 AI 的唯一心脏，但斯坦福报告的最新数据显示，这种单极格局正在土崩瓦解。

根据研究机构 Epoch AI 的数据，截至 2026 年 3 月，由达里奥 · 阿莫迪（Dario Amodei）领导的美国顶级 AI 公司 Anthropic，其最先进的模型在性能表现上，仅仅领先中国最强竞争对手 2.7 个百分点。

中美顶级模型的性能差异

这场博弈的转折点发生在 2025 年 2 月，当时 DeepSeek 发布的 R1 模型曾短暂追平美国模型，随后双方进入了高频的性能更迭期。今年报告的主编内斯特 · 佩罗（Nestor Maslej）指出，这种领先优势的反复变化，标志着全球顶级 AI 研发已经进入了某种程度的"技术平权"。

从产出数量上看，美国在 2025 年发布了 50 个值得注意的顶级模型，中国则紧随其后发布了 30 个。

2003 年至 2025 年，美国、中国和欧洲的 AI 模型数量呈上升趋势

虽然在模型绝对数量和私人投资总额上，美国分别以 2859 亿美元对中国的 124 亿美元保持领先，但报告特别提醒政策制定者：账面数字极大地低估了中国的真实投入。

如果我们将时间线拉长，自 2000 年以来，中国政府引导基金向 AI 公司注入的资金累计已达约 1840 亿美元。这种"政府搭台、企业唱戏"的模式，让中国在 AI 出版物数量、论文引用份额以及专利授权量上，已经稳稳坐上了全球第一的宝座。

国际机器人联合会数据显示，2024 年中国安装工业机器人 29.5 万台，日本约 4.45 万台，美国 3.42 万台，德国和韩国数量显著低于中国

更具实感的数据是，中国在工业机器人的安装量上也已领先世界，这预示着 AI 在物理世界的具身化落地，中国可能拥有更深厚的工程基础。

一些美国科技公司的高管对这种差距的缩小感到不安，他们将原因归结为中国在开源代码利用和工程实现上的高效。但不可否认的是，当技术指标的差距缩小到个位数时，未来的竞争将不再仅仅取决于谁的模型多跑了几个百分点，而在于谁能率先将这些昂贵的算力转化为实际的生产力收益。

到目前为止，美国拥有的 AI 研究人员和开发者数量远超任何其他国家，但这些专家流入美国的速度正在急剧放缓。自 2017 年以来，移居美国的 AI 学者数量下降了 89%。这种下降正在加速，仅在过去一年中就下降了 80%。

流入美国 AI 人才数量大幅减缓

02 美国保住了算力王座，却把压力甩给了电网

美国在数据中心领域保持明确领先。

Stanford HAI 统计的数据显示，美国拥有 5427 个数据中心，中国为 449 个，德国和英国各约 525 个。截至 2025 年底，AI 数据中心总电力容量达到 29.6 吉瓦，约等于纽约州峰值用电需求。

Epoch AI 以英伟达 H100e 计算能力为标尺的统计显示，英伟达 GPU 占全球 AI 总计算能力 60% 以上，谷歌与亚马逊分列第二、第三位

数据中心规模扩张伴随显著环境成本。Stanford HAI 报告估计，训练 xAI 的 Grok 4 模型产生约 72,816 吨二氧化碳当量，高于约 1000 辆普通汽车整个生命周期的碳排放。

AI 指数指导委员会联合主任雷 · 佩罗（Ray Perrault）表示，该估计值基于公开报道、xAI 声明等非可验证来源，需谨慎解读。他同时指出，Epoch AI 独立估计 Grok 4 排放量约为 14 万吨二氧化碳。

报告估计，2012 年至 2025 年训练 AI 模型的碳排放量呈上升趋势，2025 年 Grok 3 和 Grok 4 训练导致排放量急剧增加

模型推理同样产生环境负担。Stanford HAI 报告估算，仅 GPT-4o 推理的年用水量即超过 1200 万人的饮用水需求。推理效率最低的模型碳排放量比最高者高出 10 倍以上。DeepSeek 的 V3 模型响应中等长度提示时消耗约 23 瓦，Claude 4 Opus 消耗约 5 瓦。

地方社区开始抵制数据中心建设。根据数据中心观察组织报告，过去两年，因地方反对，价值 640 亿美元的美国数据中心项目被搁置或延迟，24 个州至少 142 个活动团体参与组织。

公开反对数据中心项目的民选官员中，55% 为共和党人，45% 为民主党人。在弗吉尼亚州沃伦顿，每位投票支持亚马逊数据中心项目的镇议会成员均在此后选举中落选。

部分抵制事件涉及暴力。印第安纳波利斯市一位公开支持其选区数据中心改规划的市议员表示，4 月初有人向其住宅开枪，门阶留下一张手写纸条，内容为"不要数据中心"。该议员与其八岁儿子未受伤。

03 AI 模型性能快速提升，特定任务存明显短板

过去十年，AI 模型性能提升速度较快，且呈加速趋势。

多模态大语言模型攻克新基准的速度接近基准发布速度。AI 智能体的进化速度最为显著，OSWorld 基准（测试自主计算机使用）和 SWE-Bench Verified 基准（测试自主编码）的得分曲线均呈现最陡峭走势。

2012 年至 2025 年，AI 在多项任务上的性能基准与人类表现对比。比如在图像分类早期超越人类表现，2020 年代后模型在多任务上接近或超越人类基线

"人类终极考试"基准包含各领域专家贡献的问题，代表各领域最难题。2025 年报告显示，排名最高的 OpenAI 的 o1 模型仅正确回答 8.8% 的问题，此后准确率升至 38.3%。

而截至 2026 年 4 月，得分最高的模型—— Anthropic 的 Claude Opus 4.6 和谷歌的 Gemini 3.1 Pro ——已超过 50%。

佩罗提示，基准测试未必反映了模型的现实表现："知道法律推理基准有 75% 的准确率，并不能告诉我们它在律师事务所活动中的适应程度。"

医学领域 AI 应用取得进展。过去两年，关于 AI 用于药物发现的出版物数量增加一倍以上。多模态生物医学 AI（用于同时检查医学图像与文本）的出版物数量为两年前的 2.7 倍。

2018 年至 2025 年，关于 AI 用于药物发现的出版物数量持续增加，近两年增速加快然而，AI 模型在部分常见任务上表现较差。

ClockBench 测试多模态 LLM 读取模拟时钟的能力，表现最佳的 OpenAI GPT-5.4 准确率仅为 50%。多数模型得分显著更低。Anthropic 的 Claude Opus 4.6 正确读取时间的准确率仅为 8.9%，而该模型在其他基准上通常得分较高。

ClockBench 测试显示，不同 LLM 读取模拟时钟的准确率从 8.9% 至 50.60% 不等，整体表现偏低

佩罗表示，这反映了一个更普遍的问题："有一条研究线索表明，当系统被问到语言与其他模态（如图像或音频语调）组合的问题时，语言部分承担了绝大部分负担，甚至到了完全忽略非语言信息的程度。"

此外，机器人在家务处理方面仍有较大差距。报告指出，它们在折叠衣物或洗碗等真实家务中只有 12% 的成功率。

04 AI 在医学研究领域飞奔

医学领域的人工智能应用取得较快进展。报告显示，过去两年，关于人工智能用于药物发现的出版物数量增加了一倍以上。多模态生物医学人工智能——用于同时检查医学图像和文本——的出版物数量是两年前 2.5 倍。

2025 年出现了一些值得关注的项目。人工智能首次端到端运行了完整的天气预报流程，接收原始实时气象观测数据，直接输出最终的温度、风力和湿度等预报结果。天文学也建立了其首个基础模型，实现了 1 台望远镜的自动化观测。

在临床应用中，从患者就诊中自动生成临床记录的工具在 2025 年得到广泛采用。在多个医院系统中，医生报告称撰写笔记的时间减少了高达 83%，并且职业倦怠感显著降低。

但报告同时指出，除某些工具外，临床人工智能的价值仍然是推测性的。一项对 500 多项临床人工智能研究的回顾发现，近一半的研究依赖于考试式问题而非真实的患者数据，只有 5% 的研究使用了真实的临床数据。

医疗人工智能的另一个增长领域是数据孪生，即个体患者的动态、数据链接的计算表征，能够随时间更新并支持预测、模拟和治疗优化。相关出版物数量从 2015 年的接近于零上升至 2025 年的 372 篇。

05 员工效率提升，企业却未变强

聚焦具体任务，AI 带来可测量的效率提升。

客户支持智能体每小时解决的问题增加近 15%，使用 GitHub Copilot 的软件开发人员完成的拉取请求增加 26%，使用 AI 进行广告创作的营销团队人均产出跃升 50%。

扩大至美国整体经济，2025 年生产率增长率为 2.7%，约为前十年平均水平的两倍。但报告中引用的宾夕法尼亚大学沃顿预算模型测算，AI 对全要素生产率的实际贡献仅为 0.01 个百分点，接近为零。

报告同时指出，对于需要更深层次推理的任务，AI 工具反而降低人工效率。使用 AI 辅助的开源开发者速度降低 19%。依赖 AI 进行学习的工程师未显示速度提升，反而受到研究人员所称的"学习惩罚"，可能随时间推移减缓其专业发展。

劳动力数据显示明确的代际差异。到 2025 年 9 月，美国 22 至 25 岁软件开发者的就业人数较 2022 年峰值下降近 20%，而年长开发者数量持续增长。客户支持智能体领域呈现类似趋势。

2021 年至 2025 年，按年龄划分的软件开发人员和客户支持人员配置趋势显示，早期职业工作者人数明显减少，中后期职业工作者人数稳定或增加

这些变化难以从宏观趋势中完全分离。报告指出，多类职业失业率均在上升，且与预期相反，AI 暴露程度最低的工人失业率上升幅度高于 AI 暴露程度最高的工人。三分之一的受访公司预计，受 AI 影响，未来一年将缩减员工规模。

独立于斯坦福报告的一项麻省理工学院研究发现，95% 的企业在约 350 至 400 亿美元的 AI 投资中获得零回报，仅 5% 的企业成功实现工具的大规模部署。

06 全球 AI 投资大幅增长，美国领先但中国被低估

根据 AI 分析公司 Quid 的数据，2025 年全球 AI 投资创下新纪录，超过 5810 亿美元，是 2024 年 2530 亿美元的两倍多，并超过 2021 年 3600 亿美元的纪录。

与 2021 年由并购主导不同，2025 年创纪录投资由私人投资主导。大部分资金流向美国，2025 年美国 AI 投资超过 3440 亿美元。

Quid 数据显示，2013 年至 2025 年全球企业 AI 投资按活动类型划分。2021 年投资上升，2022 至 2024 年下降，2025 年再次大幅增长

但报告再次强调，仅基于私人投资的比较可能低估了中国投入人工智能的资金量。报告估计，2000 年至 2023 年间，有 9120 亿美元的政府引导基金被部署到包括人工智能在内的各个行业。

从计算能力来看，根据 Epoch AI 以英伟达 H100e 计算能力为标尺的统计，英伟达 GPU 占全球人工智能总计算能力的 60% 以上，谷歌与亚马逊分列第二、第三位。全球人工智能计算能力自 2022 年以来每年增长 3.3 倍，自 2021 年（追踪的第一年）以来总计算能力增长了 30 倍。

07 AI 普及速度创纪录，采用率超过互联网

生成式人工智能的普及速度依然在加速。报告指出，生成式人工智能在三年内达到 53% 的人口采用率，比个人电脑或互联网的普及速度更快。不过普及速度因国家而异，并与人均 GDP 密切相关。

部分国家的普及率高于预期，新加坡达到 61%，阿联酋达到 54%。美国以 28.3% 的普及率排名第 24 位。到 2026 年初，生成式人工智能工具对美国消费者的估计年价值达到 1720 亿美元，每位用户的平均价值在 2025 年至 2026 年间增长了两倍。

在教育领域，五分之四的美国高中生和大学生将人工智能用于与学校相关的任务。但只有一半的初中和高中制定了人工智能政策，只有 6% 的教师表示这些政策是清晰的。正规教育明显滞后于人工智能的使用。

在软件开发平台方面，截至 2025 年，GitHub 上人工智能相关项目数量升至 558 万个，比 2020 年增长约五倍，比 2024 年增长 23.7%。至少获得 10 颗星的项目数量及人工智能项目获得星标总数均以类似速度增长。开源代理式人工智能软件 OpenClaw 已获得 35.2 万颗星。

2011 年至 2025 年，GitHub AI 项目数量从接近零增长至 558 万，近年增速显著加快

佩罗表示：" GitHub 使用的强度很可能与人工智能使用的强度高度相关。"但根据活动追踪网站"野外代理"（Agents in the Wild）的数据，多数 GitHub 活动仍由人类执行。

过去十年，人工智能相关的计算机科学出版物数量从 10.2 万篇增至 25.8 万篇，增长一倍以上。截至 2024 年，超过 68% 的出版物源自学术界，政府和工业界分别贡献约 11.5% 和 12.5%。增长主要由机器学习、计算机视觉和生成式人工智能领域驱动。

08 美国人对 AI 最谨慎

根据益普索（Ipsos）调查数据，认为 AI "利大于弊"的受访者比例从 2024 年的 55% 升至 59%。表示对 AI 有"很好理解"的受访者比例从 67% 略升至 68%。同时，52% 的受访者表示使用 AI 的产品和服务让他们感到"紧张"。

2022 年至 2025 年，针对多项 AI 相关观点陈述的受访者回应分布显示，乐观情绪小幅上升，负面情绪亦有所增加

不同国家之间存在显著差异。中国、马来西亚、泰国、印度尼西亚、新加坡等东南亚国家对人工智能的态度趋于积极。年度同比积极转变最大的国家为德国（增长 12%）、法国（10%）和荷兰（10%）。哥伦比亚负面转变最大（下降 6%），与往年趋势相反。

美国公众的态度比其他国家更为谨慎。只有 33% 的美国人期望人工智能能让他们的工作变得更好，而全球平均水平为 40%。美国公众在预期人工智能将消除工作岗位而非创造新岗位方面，比例也是最高的。

对政府人工智能监管的信任度差异更大。新加坡 81% 的受访者表示信任监管机构，美国仅为 31%，在调查国家中位居末位。多个欧洲国家和日本也呈现较低信任度。亚洲和南美洲国家的信任度普遍较高。

各国对政府 AI 监管信任度调查显示，新加坡以 81% 居首，美国以 31% 垫底

根据皮尤（Pew）调查，专家与公众对人工智能未来的看法存在较大分歧。73% 的专家认为人工智能将对人们的工作方式产生积极影响，而只有 23% 的美国公众持相同观点。

专家对人工智能在教育和医疗保健方面的影响也比公众更为乐观，但两群体一致认为人工智能会对选举和个人关系产生负面影响。

报告还指出了一个值得关注的趋势：当今最有能力的现代模型，也是透明度最低的。庞大而强大的模型集中在最大的人工智能公司手中，这些公司越来越多地将训练代码、数据集大小和参数数量保密。

基础模型透明度指数衡量主要人工智能公司在披露其模型训练数据、计算量、能力、风险和使用政策细节方面的开放程度。报告显示，该指数平均得分从 2024 年的 58 分降至今年的 40 分。指数特别指出，最有能力的模型披露的信息往往最少。

报告合著者、南加州大学计算机科学家约兰达 · 吉尔（Yolanda Gil）表示："关于预测模型行为，我们有很多东西不知道。"她说，这种缺乏透明度的状况使得独立研究人员难以研究如何让人工智能模型更安全。

结语

斯坦福大学的 AI 指数报告，本质上是一本人类与机器共同书写的"生存手册"。它用 423 页的内容告诉我们：AI 已经过了那个可以靠讲故事生存的童年期，它正步入成年，面临着商业回报、能源瓶颈和全球主权竞争的成年礼。

对于中国而言，2.7% 的差距意味着追赶已经完成，接下来的任务是利用专利授权和工业机器人的规模优势，率先在实体经济中收割 AI 的红利。

对于美国而言，如何守住私人投资的创新活力，并解决高昂的成本与能源问题，将决定其能否继续引领下一个十年。

这场 4050 亿美元的豪赌刚刚进入下半场，而最终的赢家，未必是那个算力最强的，但一定是那个最能适应物理现实、最能回馈商业价值的。