你如果关注AI领域的新闻,可能会在充满矛盾的信息轰炸里深感困惑:有时,AI蓬勃发展,有时,AI是个泡沫。今天看,AI现有的技术和架构将持续突破。明日叹,AI发展模式不可持续,需革命性新思路。此刻,AI或将猛砸你的饭碗!他时,AI也就给你讲个故事解解闷儿的能耐!

斯坦福大学以人为本人工智能研究所(HAI)2025年4月初发布了《2025年AI指数报告》(The 2025 AI Index Report)。这份400多页的报告主要通过数据图表呈现事实、揭示趋势,涵盖了研发、技术表现、负责任AI、经济影响、科学医疗、政策、教育以及社会舆论等主题。《IEEE纵览》杂志精选出了报告中最能反映AI领域现状的12份关键图表。

01

行业领头羊

图片

有许多标准可用于衡量各国在AI竞赛中所处的身位,包括期刊论文发表数量、论文引用量以及专利数量等,不过最直观的指标莫过于“关键模型产自何处”。

研究机构Epoch AI建立的数据库收录了1950年至今所有具有影响力的重大AI模型——上图所示的数据就来自该库。

可以看到,在2024年,美国产出了40个关键模型,中国有15个,欧洲有3个(全部来自法国)。另有一幅图表(本文未展示)则告诉我们,这些模型几乎全部来自企业而非学术界或政府。至于2023年至2024年间,关键模型数量下降的情况,报告认为其原因可能在于技术复杂度升高和训练成本持续上涨。

02

训练成本知多少

图片

要说训练成本,那是真贵!由于头部的AI企业已不再披露训练相关信息,研究人员与Epoch AI合作,收集训练时长、硬件类型与数量等信息并据此估算。他们能估算出的最贵模型是由谷歌豪掷约1.92亿美元打造的Gemini 1.0 Ultra。训练成本普涨的情况也呼应了报告里的多项其他发现,包括模型参数量、训练时长以及数据规模仍持续扩张的态势。

异军突起的中国新锐DeepSeek于今年初搅动了行业风云,不过新报告未将其收入上述图表。

关于DeepSeek的训练成本,业界存在部分质疑,但它的表现无疑是现象级的,AI指数指导委员会联合主任尤兰达·吉尔(Yolanda Gil)评价其“令人印象深刻”,此外也指出计算机发展史上不乏低效技术被优雅方案取代的案例。

她说道:“不止我一人认为大语言模型终将出现更高效版本,但大家不清楚它将由谁打造、如何打造。”

03

使用AI的成本却在下降

图片

虽然围绕(大多数)AI模型的训练成本不断攀升,但AI指数报告也强调了一些积极趋势:硬件成本下降、硬件性能增强、能源效率提高。这意味着推理成本(即查询已训练模型的花费)正急剧减少。上面这张采用对数刻度的图表,展示了每美元AI性能的变化趋势。报告指出,蓝色线表明每百万token成本从20美元降至0.07美元;粉色线表明在不到一年内,成本从15美元降至0.12美元。

04

AI的巨量碳足迹

图片

诚然,能源效率提升是积极信号,但我们也必须直面负面趋势:在能效改善的同时,总体能耗仍呈现增长。这意味着人工智能盛世的核心,即数据中心,正产生巨大碳足迹。AI指数报告根据训练硬件、云服务商以及地理位置等因素,对部分AI模型的碳排放进行评估,结果发现前沿AI模型训练的碳排放量持续上升——除了DeepSeek。

上方图表中最糟糕的案例是Meta Llama 3.1模型,其产生的二氧化碳排放量预计高达8930吨,相当于496个美国人生活一年的总排放。如此惊人的环境影响,解释了为何AI公司纷纷将核能视作可靠的零碳电力来源。

05

性能差距正在缩小

图片

美国发布的重大AI模型数量方面仍可谓遥遥领先,但中国模型的质量水准提升之大令业界叹服。上方图表显示,在聊天机器人基准测试中,中美双方的模型性能差距逐渐缩小。2024年1月,美国最佳模型的表现较中国顶尖模型领先9.26%;到2025年2月,这一差距已缩小至1.70%。在推理、数学和编程等其他基准测试中,也可观察到类似趋势。

06

人类的终极测验

图片

新报告还强调了一个无可争议的事实:许多用于评估人工智能系统能力的基准测试已趋于“饱和”——AI系统得分过高,以致测试不再有意义。这种现象已出现于常识、图像推理、数学、编程等多个领域。

吉尔表示,她惊讶地目睹一个又一个基准测试相继失效。“我一直觉得(性能)会遇到瓶颈,必须依靠新技术或颠覆性的架构才能继续突破,可现实并非如此。”

鉴于此,科学家正努力创制新的基准测试,以期挑战AI系统。其中有一套名为“人类终极测验”(Humanity’s Last Exam)的大杀招,汇集了由来自全球五百所机构的学科专家提供的极限难题,成功难倒了现阶段最顶尖的AI系统:目前表现最好的应试者是OpenAI的推理模型o1,其正确率达8.8%。此记录可保持多久?让我们拭目以待。

07

数据峰值的降临

图片

当下的生成式AI通过从互联网抓取海量数据并以此进行训练而获得智能,这就催生了所谓“AI经济下,数据是石油”的说法。随着人工智能企业不断突破模型训练的数据上限,人们开始担忧“数据峰值”何日到来。一个现实问题是:越来越多网站正限制爬虫抓取数据(或许出于对AI公司既利用网站数据牟利又摧毁其商业模式的担忧),这些限制都通过机器可读的robots.txt文件声明。

上方图表显示,顶级网站域名的数据已有48%被完全限制。不过吉尔指出,AI领域的新方法或可终结对庞大数据集的依赖。

“我预感,在某个时刻,数据量将不再那么关键。”

08

资本市场用脚投票

图片

过去5年,来自企业界的资金汹涌入局AI。尽管2024年的全球总投资额不及2021年的狂热高点,但要注意,私人投资规模可创下了历史新高。在1500亿美元的私人投资中(此处未显示),约330亿美元流向了生成式AI领域。

09

等待回报

图片

企业豪掷千金,求的当然是丰厚回报。眼下,我们兴奋不已地谈论人工智能的变革之力,畅想前所未见的生产力飞跃,但客观来说,企业尚未看到能带来显著成本节约或新增利润的实质改变。上面这份源于麦肯锡调研的图表显示:在报告降本的企业中,多数都只省下不足10%的钱;而在实现增收的企业中,大部分的增幅都低于5%。

虽然投资数据表明众多企业押注人工智能,但现在谈回报还为时尚早。

10

AI医生即将上线?

图片

在这波人工智能大热潮中,科学和医学领域涌现了令人惊喜的AI新气象。AI指数报告列举了多个新发布的基础模型,它们将助力材料科学、天气预报和量子计算等方面的研究。许多公司正尝试将AI的预测与生成能力转化为有利可图的药物发现。例如,OpenAI的o1推理模型最近在MedQA基准测试(包含医学委员会考试的题目)中展现了96%的准确率。

但总体而言,上述领域远未将AI潜力转化为现实影响,因为人类似乎还没完全搞懂怎么用AI技术。2024年一项研究显示:医生使用GPT-4辅助诊断后,并未因此提升诊断的准确率或速度。另一方面,独自做事的GPT-4反而强于独自做事的医生,也强于医生+AI的组合。

11

关于AI政策

图片

上方图表告诉我们,美国国会关于AI的讨论很多,实际行动很少。AI指数报告指出,美国的相关行动重心已转向州一级:2024年共有131项州级法案通过立法,其中有56项涉及深度伪造技术,禁止其被用于在选举或传播非自愿亲密影像。

欧盟通过的《人工智能法案》针对高风险AI系统给企业划定了新的义务。而全球大趋势是各国联手协同,发表全面而不具约束力的声明。那么有大量关于AI的内容需要讨论。

12

乐观的人类继续前行

关于“AI何时取代你的工作”的公共讨论早已甚嚣尘上。但有趣的是,一项最新的全球AI态度调查显示,多数人并没感受到威胁。受访者来自32个国家,其中60%的人认为人工智能将改变自己的工作方式,但只有36%的人觉得自己会被取代。

吉尔说道:“此结果令我非常意外。人们想着‘AI改变工作,而我仍创造价值’,这样的心态令人鼓舞!”

那么,未来大家是否都能通过管理AI团队来创造价值呢?待时间给出答案……

文章资料来源:12 Graphs That Explain the State of AI in 2025文章观点不代表主办机构立场。

◆ ◆ 

编辑邮箱:sciencepie@126.com

图片

图片

免责声明:凡本站注明稿件来源为“科普中国”、科普类微信公众号及互联网的文章,其转载目的在于传递更多信息并促进科学普及,但并不代表本站赞同其观点或对其内容的真实性、准确性负责,亦不构成任何形式的建议。若需转载本网站所提供的内容,请确保完整转载,并明确注明来源及原作者姓名。未经许可,转载内容不得用于任何商业目的。任何单位或个人若认为本网站或其链接内容涉嫌侵犯其合法权益,请及时向本网站提交书面反馈,并提供身份证明、权属证明及详细的侵权情况说明。本网站在收到上述法律文件后,将尽快处理并移除涉嫌侵权的内容或链接。