斯坦福大学：2024年AI发展指数报告

2024年4月15日，斯坦福人本人工智能研究所发布了本年度的“AI指数报告”，该指数是斯坦福大学人本人工智能研究所（HAI）的一个独立项目，由来自学术界和工业界的跨学科专家组成的AI指数指导委员会领导。今年的报告涵盖了多模态基础模型的兴起、对生成式AI的重大现金投资、新的性能基准、全球观点的变化以及新的重大法规。这份篇幅达502页的AI指数报告是迄今为止最全面的版本，扩大了研究范围，更深入地探讨了AI的技术进步、公众感知和地缘政治动态等关键趋势。报告提供了大量原始数据，并新增了关于AI培训成本的估算、负责任AI的详尽分析和AI对科学和医学影响的新章节。作为全球公认的权威数据来源，本年度报告在规模和影响力上都有显著提升，突显了AI在全球日益增长的重要性。好学好教少儿编程平台出于传递行业信息目的，摘译和这份报告同步发布的一份报告摘要，供参考。

关于这份报告的十大要点

AI在某些任务上超越了人类，但并非在所有任务上都如此。AI已在多个基准测试中超越人类表现，包括在图像分类、视觉推理和英语理解等方面。然而，在更复杂的任务上，如竞赛级数学、视觉常识推理和规划上，它仍落后。
工业界继续主导前沿AI研究。2023年，工业界产出了51个卓著的机器学习模型，而学术界仅贡献了15个。此外，2023年还有21个由工业界与学术界合作产生的卓著模型，创下新高。
前沿模型的成本大幅上升。根据AI指数的估计，最先进AI模型的训练成本已达到前所未有的水平。例如，OpenAI的GPT-4训练估计耗资7800万美元，而谷歌的Gemini Ultra训练成本为1.91亿美元。
在顶尖AI模型的来源方面，美国领先于中国、欧盟和英国。2023年，有61个卓著的AI模型起源于美国的机构，远超欧盟的21个和中国的15个。
对于LLM责任的强健和标准化评估严重缺失。AI指数的新研究揭示了在负责任AI报告中存在显著的标准化不足。包括OpenAI、谷歌和Anthropic在内的主要开发者主要针对不同的负责任AI基准测试他们的模型。这种做法使得系统比较顶尖AI模型的风险和局限性变得复杂。
生成式AI投资激增。尽管去年整体AI私人投资有所下降，但生成式AI的资金大幅增加，从2022年几乎增加了八倍，达到252亿美元。包括OpenAI、Anthropic、Hugging Face和Inflection在内的生成式AI领域的主要参与者报告了大量的融资轮。
数据证实：AI提高了工人的生产力并提升了工作质量。在2023年，几项研究评估了AI对劳动力的影响，表明AI使工人能够更快地完成任务并提高他们的产出质量。这些研究还展示了AI缩小低技能和高技能工人之间技能差距的潜力。然而，其他研究警告称，未经适当监管使用AI可能会导致性能下降。
科学进展因AI而进一步加速。2022年，AI开始推动科学发现。然而，2023年推出了更多重要的与科学相关的AI应用——从AlphaDev，它使算法排序更加高效，到GNoME，它促进材料发现的过程。
美国的AI相关法规数量急剧增加。过去一年以及过去五年内，美国的AI相关法规数量显著上升。2023年，有25项与AI相关的法规，而2016年仅有1项。仅去年一年，AI相关法规的总数就增长了56.3%。
全球的人们对AI的潜在影响有了更多认识，并且更加紧张。Ipsos的一项调查显示，过去一年中，认为AI将在未来三到五年内极大影响他们生活的人的比例从60%增加到了66%。此外，52%的人对AI产品和服务感到紧张，较2022年上升了13个百分点。在美国，Pew的数据表明，52%的美国人表示对AI的担忧超过兴奋，较2022年的37%有所上升。

下面配合图表进一步说明。

迈向开源

去年，各组织发布了149个基础模型，是2022年发布数量的两倍多。在这些新发布的模型中，有65.7%是开源的（意味着任何人都可以自由使用和修改），相比之下，2022年只有44.4%，2021年则为33.3%。

（开源模型）的代价是性能？

封闭源代码模型仍然表现优于开源模型。在选定的10个基准测试中，封闭模型的中位数性能优势为24.2%，差异从数学任务如GSM8K的4.0%到AgentBench的代理任务高达317.7%不等。

大玩家

在人工智能领域，工业界占据主导地位，尤其是在构建和发布基础模型方面。去年，谷歌在发布模型数量上超过了其他工业界的参与者，发布了包括Gemini和RT-2在内的多个模型。实际上，自2019年以来，谷歌在发布基础模型的数量上一直领先，总共发布了40个，其次是OpenAI的20个。学术界在这方面落后于工业界：去年，加州大学伯克利分校发布了三个模型，斯坦福大学发布了两个。

工业界遥遥领先

如果你还需要更明显的证据表明，目前企业人工智能是唯一的玩家，这应该可以说明问题。在2023年，工业界占所有新基础模型的72%。

成本飙升

成本飙升是学术界和政府在人工智能竞赛中处于劣势的原因之一：训练这些巨型模型的成本呈指数级增长。谷歌的Gemini Ultra训练成本估计高达1.91亿美元，而OpenAI的GPT-4训练成本估计为7800万美元。相比之下，2017年推出的原始变换模型（几乎是所有现代大型语言模型的基础架构）的成本仅约900美元。

人工智能大赛

至少在卓著的机器学习模型方面，美国在2023年大大超过了其他国家，共开发了61个模型。自2019年以来，美国一直是大多数卓著模型的主要发源地，其次是中国和英国（图片中是法国国旗，但结合上下文和英文原文，应该是英国）。

人工智能反客为主

到2023年，人工智能在许多重要的AI基准测试上已达到人类水平的表现，从测试阅读理解到视觉推理的基准都有所涵盖。然而，在一些基准测试中，如竞赛级数学题目，它仍略有不足。因为人工智能在许多标准基准测试中的表现超越预期，AI学者不得不创造新的、更具挑战性的测试。今年的指数还追踪了几个这样的新基准，包括编程、高级推理和代理行为等任务的基准。

私人投资下降（但我们看好生成式AI）

尽管自2021年以来人工智能私人投资持续下降，生成式AI的势头正在上升。2023年，该领域吸引了252亿美元的投资，几乎是2022年投资的九倍，约是2019年投资额的30倍（可称之为ChatGPT效应）。2023年，生成式AI占所有与AI相关的私人投资的四分之一以上。

美国赢得资金竞赛

再次，在2023年，美国在人工智能私人投资领域占据主导地位。2023年，美国的投资额为672亿美元，大约是投资额第二高的国家中国的8.7倍，以及英国的17.8倍。从更广泛的角度来看，这一格局保持不变：自2013年以来，美国的累计投资额为3352亿美元，位居榜首，其次是中国的1037亿美元，英国为223亿美元。

企业在哪些业务中采用AI技术？

越来越多的公司在其业务的某些部分实施人工智能：调查显示，2023年有55%的组织表示他们在使用AI，较2022年的50%和2017年的20%有所上升。企业报告称，他们利用AI自动化联系中心、个性化内容以及获取新客户。

年轻和富裕的人群担心就业问题

在全球范围内，大多数人预计人工智能将改变他们的工作，超过三分之一的人预计AI将取代他们。年轻一代——Z世代和千禧一代——预计与X世代和婴儿潮一代相比，AI对他们的影响将更为显著。具体来说，66%的Z世代相比于46%的婴儿潮一代受访者认为AI将显著影响他们当前的工作。同时，收入较高、教育程度更高以及担任决策角色的个体预见AI将对他们的就业产生重大影响。

英联邦的人更担心AI产品的影响

在一项关于AI产品和服务是否让您感到紧张的调查中，69%的澳大利亚人，65%的英国人，63%的加拿大人表示赞同。而日本对其AI产品的担忧程度最低，只有23%。