2024年4月15日,斯坦福人本人工智能研究所发布了本年度的“AI指数报告”,该指数是斯坦福大学人本人工智能研究所(HAI)的一个独立项目,由来自学术界和工业界的跨学科专家组成的AI指数指导委员会领导。今年的报告涵盖了多模态基础模型的兴起、对生成式AI的重大现金投资、新的性能基准、全球观点的变化以及新的重大法规。这份篇幅达502页的AI指数报告是迄今为止最全面的版本,扩大了研究范围,更深入地探讨了AI的技术进步、公众感知和地缘政治动态等关键趋势。报告提供了大量原始数据,并新增了关于AI培训成本的估算、负责任AI的详尽分析和AI对科学和医学影响的新章节。作为全球公认的权威数据来源,本年度报告在规模和影响力上都有显著提升,突显了AI在全球日益增长的重要性。好学好教少儿编程平台出于传递行业信息目的,摘译和这份报告同步发布的一份报告摘要,供参考。
关于这份报告的十大要点
AI在某些任务上超越了人类,但并非在所有任务上都如此。AI已在多个基准测试中超越人类表现,包括在图像分类、视觉推理和英语理解等方面。然而,在更复杂的任务上,如竞赛级数学、视觉常识推理和规划上,它仍落后。
工业界继续主导前沿AI研究。2023年,工业界产出了51个卓著的机器学习模型,而学术界仅贡献了15个。此外,2023年还有21个由工业界与学术界合作产生的卓著模型,创下新高。
前沿模型的成本大幅上升。根据AI指数的估计,最先进AI模型的训练成本已达到前所未有的水平。例如,OpenAI的GPT-4训练估计耗资7800万美元,而谷歌的Gemini Ultra训练成本为1.91亿美元。
在顶尖AI模型的来源方面,美国领先于中国、欧盟和英国。2023年,有61个卓著的AI模型起源于美国的机构,远超欧盟的21个和中国的15个。
对于LLM责任的强健和标准化评估严重缺失。AI指数的新研究揭示了在负责任AI报告中存在显著的标准化不足。包括OpenAI、谷歌和Anthropic在内的主要开发者主要针对不同的负责任AI基准测试他们的模型。这种做法使得系统比较顶尖AI模型的风险和局限性变得复杂。
生成式AI投资激增。尽管去年整体AI私人投资有所下降,但生成式AI的资金大幅增加,从2022年几乎增加了八倍,达到252亿美元。包括OpenAI、Anthropic、Hugging Face和Inflection在内的生成式AI领域的主要参与者报告了大量的融资轮。
数据证实:AI提高了工人的生产力并提升了工作质量。在2023年,几项研究评估了AI对劳动力的影响,表明AI使工人能够更快地完成任务并提高他们的产出质量。这些研究还展示了AI缩小低技能和高技能工人之间技能差距的潜力。然而,其他研究警告称,未经适当监管使用AI可能会导致性能下降。
科学进展因AI而进一步加速。2022年,AI开始推动科学发现。然而,2023年推出了更多重要的与科学相关的AI应用——从AlphaDev,它使算法排序更加高效,到GNoME,它促进材料发现的过程。
美国的AI相关法规数量急剧增加。过去一年以及过去五年内,美国的AI相关法规数量显著上升。2023年,有25项与AI相关的法规,而2016年仅有1项。仅去年一年,AI相关法规的总数就增长了56.3%。
全球的人们对AI的潜在影响有了更多认识,并且更加紧张。Ipsos的一项调查显示,过去一年中,认为AI将在未来三到五年内极大影响他们生活的人的比例从60%增加到了66%。此外,52%的人对AI产品和服务感到紧张,较2022年上升了13个百分点。在美国,Pew的数据表明,52%的美国人表示对AI的担忧超过兴奋,较2022年的37%有所上升。
下面配合图表进一步说明。
迈向开源
去年,各组织发布了149个基础模型,是2022年发布数量的两倍多。在这些新发布的模型中,有65.7%是开源的(意味着任何人都可以自由使用和修改),相比之下,2022年只有44.4%,2021年则为33.3%。
(开源模型)的代价是性能?
封闭源代码模型仍然表现优于开源模型。在选定的10个基准测试中,封闭模型的中位数性能优势为24.2%,差异从数学任务如GSM8K的4.0%到AgentBench的代理任务高达317.7%不等。
大玩家
在人工智能领域,工业界占据主导地位,尤其是在构建和发布基础模型方面。去年,谷歌在发布模型数量上超过了其他工业界的参与者,发布了包括Gemini和RT-2在内的多个模型。实际上,自2019年以来,谷歌在发布基础模型的数量上一直领先,总共发布了40个,其次是OpenAI的20个。学术界在这方面落后于工业界:去年,加州大学伯克利分校发布了三个模型,斯坦福大学发布了两个。
工业界遥遥领先
如果你还需要更明显的证据表明,目前企业人工智能是唯一的玩家,这应该可以说明问题。在2023年,工业界占所有新基础模型的72%。
成本飙升
成本飙升是学术界和政府在人工智能竞赛中处于劣势的原因之一:训练这些巨型模型的成本呈指数级增长。谷歌的Gemini Ultra训练成本估计高达1.91亿美元,而OpenAI的GPT-4训练成本估计为7800万美元。相比之下,2017年推出的原始变换模型(几乎是所有现代大型语言模型的基础架构)的成本仅约900美元。
人工智能大赛
至少在卓著的机器学习模型方面,美国在2023年大大超过了其他国家,共开发了61个模型。自2019年以来,美国一直是大多数卓著模型的主要发源地,其次是中国和英国(图片中是法国国旗,但结合上下文和英文原文,应该是英国)。
人工智能反客为主
到2023年,人工智能在许多重要的AI基准测试上已达到人类水平的表现,从测试阅读理解到视觉推理的基准都有所涵盖。然而,在一些基准测试中,如竞赛级数学题目,它仍略有不足。因为人工智能在许多标准基准测试中的表现超越预期,AI学者不得不创造新的、更具挑战性的测试。今年的指数还追踪了几个这样的新基准,包括编程、高级推理和代理行为等任务的基准。
私人投资下降(但我们看好生成式AI)
尽管自2021年以来人工智能私人投资持续下降,生成式AI的势头正在上升。2023年,该领域吸引了252亿美元的投资,几乎是2022年投资的九倍,约是2019年投资额的30倍(可称之为ChatGPT效应)。2023年,生成式AI占所有与AI相关的私人投资的四分之一以上。
美国赢得资金竞赛
再次,在2023年,美国在人工智能私人投资领域占据主导地位。2023年,美国的投资额为672亿美元,大约是投资额第二高的国家中国的8.7倍,以及英国的17.8倍。从更广泛的角度来看,这一格局保持不变:自2013年以来,美国的累计投资额为3352亿美元,位居榜首,其次是中国的1037亿美元,英国为223亿美元。
企业在哪些业务中采用AI技术?
越来越多的公司在其业务的某些部分实施人工智能:调查显示,2023年有55%的组织表示他们在使用AI,较2022年的50%和2017年的20%有所上升。企业报告称,他们利用AI自动化联系中心、个性化内容以及获取新客户。
年轻和富裕的人群担心就业问题
在全球范围内,大多数人预计人工智能将改变他们的工作,超过三分之一的人预计AI将取代他们。年轻一代——Z世代和千禧一代——预计与X世代和婴儿潮一代相比,AI对他们的影响将更为显著。具体来说,66%的Z世代相比于46%的婴儿潮一代受访者认为AI将显著影响他们当前的工作。同时,收入较高、教育程度更高以及担任决策角色的个体预见AI将对他们的就业产生重大影响。
英联邦的人更担心AI产品的影响
在一项关于AI产品和服务是否让您感到紧张的调查中,69%的澳大利亚人,65%的英国人,63%的加拿大人表示赞同。而日本对其AI产品的担忧程度最低,只有23%。
更多的监管
更多的美国监管机构正在通过法规以保护公民并管理AI工具和数据的使用。例如,版权局和国会图书馆通过了关于包含由AI生成材料的作品的版权注册指南,而证券交易委员会则制定了一项关于网络安全风险管理的策略、治理和事件披露计划。通过法规最多的机构是总统执行办公室和商务部。
502页报告原文在此。