最近,“百模大战”迎来了第一次专业会考,可以看作是各个大模型实力检验的“期中考试”。
权威IT市场研究和咨询公司IDC日前发布了首个大模型评估报告——《AI大模型技术能力评估报告,2023》,对国内主流AI大模型进行了一次专业且系统地评估。
虽然结果公布之前心里多少有个大概,但真正看到统一维度和评定标准下,各个大模型的差距直观展示到面前的时候,多多少少还是有些震撼。
IDC《AI大模型技术能力评估报告,2023》:百度7项满分、综合评分
这份报告显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一!
这三个绝对第一,把百度文心大模型的基础技术深度和产业应用覆盖广度,展现的淋漓尽致。
要知道,在全球大厂当中,百度首个发布了对标ChatGPT的大模型产品文心一言。算是起步最早,也是第一个敢于对国外大模型发起挑战的国产大模型。
所以,那句话怎么说来着,你大爷终究还是你大爷。
“百模大战”第一次会考:文心大模型3.5拿下7个满分、3个绝对第一
IDC在业界的“江湖地位”相信不用跟大家过多介绍了,从1964年至今,IDC在全球110多个国家跟踪技术趋势,也是也是最早进入中国市场的科技市场研究机构之一。
过去10年,IDC的研究报告被超100个IPO申请引用。其研究服务覆盖三大领域四大类别,在金融、能源、医疗、制造、零售、政府和通信服务等行业的研究引领全球。
在此之前,尽管各种第三方测试报告众多,但市面上一直缺少统一的大模型评估标准。大多数企业依旧在拼参数量级,通过更大的参数量来提升模型的准确度。
但“无脑”堆参数量级,到了一定程度之后,就会出现数据多少和模型的性能收益出现边际效应递减的现象,投入和产出不成正比了。随着大模型的越来越多,业界迫切需要一套科学的大模型评估标准。
IDC选择在这个时候发布第一个大模型评估报告,自然意义重大,而且极具参考价值,给大模型发展指明了道路,也为用户选择厂商提供帮助和建议。
我们来看看IDC是怎么评估大模型的。
首先,IDC将大模型分为三层,即服务生态、产品技术以及行业应用。
同时,对每一层的能力进行测评,主要考察指标为:算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标(具体包括36项细颗粒度的评估标准),每个指标有1分-5分五个层级,得分越高代表厂商大模型技术能力越强,最终评估结果通过雷达图展示。
其次,在大模型的选择上,IDC选取了中国市场9家大模型技术厂商进行重点研究,分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。
除此之外,IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。IDC也表示,会持续更新测评,涵盖更多技术厂商。
百度获算法模型、行业覆盖唯一满分
根据评估报告,百度文心大模型获得了7项核心指标满分(5分):算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业;
3项国内唯一满分(5分):算法模型、行业覆盖、能源行业;
5项指标4分:安全可解释、服务能力、金融行业、工业行业、医疗行业。
在大模型的评定标准中,“算法模型”和“行业覆盖”是衡量大模型能力极其重要的两个指标。其中,“算法模型”是大模型能力最为核心的要素,“行业覆盖”体现了大模型在产业落地上的实力。这两个指标,百度文心大模型在众多厂商中均获得唯一满分,核心技术上明显领先其它竞品。
文心大模型取得这一成绩,有惊喜,但也在预料之中。早在4年前,大模型还没被广泛关注的时候,百度就推出了文心大模型1.0。然后持续演进到2.0、3.0版本。如今,文心大模型已经迭代到3.5版本,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,新版本在效果、功能、性能全面提升。与3月份的3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。
多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4 的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型。
在评估报告中,IDC对百度文心大模型也不乏溢美之词。
IDC在报告中指出,百度AI大模型整体竞争力位于领先水平,在模型能力、工具平台、生态布局以及行业覆盖上优势明显,并已提前进入商业化落地探索阶段。
IDC认为,百度文心大模型源于产业实践,服务于产业实践。在近年的大模型技术探索与产业实践中,百度文心形成了支撑大模型产业落地的关键路径,构建文心大模型层、工具平台层,以及以基于文心大模型构建的系列产品与社区。
另外,IDC很看重百度的一点——百度文心大模型不只是一个模型或者一个产品。文心大模型包含数 30 多个大模型,涵盖基础大模型、任务大模型、行业大模型的三级体系,可以全面满足产业应用需求。
不仅如此,作为推进大模型在行业深度应用的关键举措,百度文心联合国网、浦发、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等企业单位,合作发布了涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等11个行业大模型,加速推动行业的智能化转型升级。
文心大模型为什么这么强?三大核心优势 别人学不来
“当别人刚刚开始思考如何进行训练的时候,我们已经在推理上冲出了很远。”李彦宏曾经说过,算力可以买来,创新能力是买不来的。
在笔者看来,文心大模型今天“遥遥领先”的背后,除了长期技术积累、行业先发带来的领先之外,核心还在于百度“芯片-框架-模型-应用”四层技术栈优势、知识增强的核心特色以及繁荣的大模型生态三大优势。
大家都知道,过去,无论是PC还是移动时代, IT技术栈都是三层,芯片层、操作系统层、应用层。但到了人工智能时代,IT技术栈变成了四层,即:芯片层、框架层(深度学习框架)、模型层(比如文心大模型、信息分发大模型、交通大模型、能源大模型等)、应用层。
百度投入人工智能已经超过10年,在芯片、框架、模型、应用四层有全栈布局,在关键核心技术攻坚上,是全球为数不多的全栈布局的人工智能公司,在四层架构都有自主研发的领先产品和技术,因此可以进行端到端的优化,迅速提升大模型训练和推理的效率。同时,文心大模型是完全自主可控的,做到了数据可控、框架可控、模型可控。
比如,在框架层,百度拥有自研的深度学习平台飞桨,有力支撑了大模型的高效训练和推理。
飞桨与文心的协同优化,让文心大模型3.5最新版本的模型效果提升50%,训练速度提升2倍,推理速度提升30倍。
而在芯片层,百度自研的昆仑芯,已实现两代通用AI芯片产品的量产及落地应用。昆仑芯 1 代 AI 芯片于 2020 年量产,在百度搜索引擎、小度等业务中部署数万片,是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯片,同时也被广泛部署在互联网、工业制造、智慧金融、智慧交通等领域。
搭载新一代架构 XPU-R 的昆仑芯 2 代 AI 芯片于 2021 年 6 月回片并当天点亮,8 月量产发布。昆仑芯 2 代 AI 芯片是国内首款采用 GDDR6 显存的通用 AI 芯片,相比昆仑芯 1 代 AI 芯片性能提升 2-3 倍,且在通用性、易用性方面也有显著增强。昆仑芯 2 代 AI 芯片已经开启互联网及各行业客户交付,当前商业化进展顺利。据悉,百度昆仑芯前两代的产品已有数万片的部署,第三代会在明年的年初上市。
百度文心大模型全景图
另外,知识增强作为文心大模型的核心特色之一,实现了更高的效率、更好的效果、更强的可解释性。在大模型生态方面,百度文心已形成企业、教育、社区三位一体的生态体系。最新数据显示,百度有超过750万开发者基础,20万企业生态基础,多层次开展大模型人才培训、企业赋能、开发者运营。百度还设立了10亿创投基金鼓励大模型创意、繁荣大模型生态。
“百模大战”终局提前预演:百度已提前胜出 下一个是谁?
今年,AI大模型成为行业关键词。一波由ChatGPT带动的“百模大战”正愈演愈烈。如今出门开发布会不提AI大模型,都不好意思跟人打招呼。
据媒体不完全统计,在OpenAI发布ChatGPT后,全球已发布数百个大模型,仅今年上半年在中国就发布了80多个大模型产品。到今年下半年,预计国内市面上的大模型将超过百款。
与此同时,我们也能清晰的看到,有的大模型各项能力已经愈发成熟,提前进入商业化落地探索阶段。而绝大多数大模型,还在给观众看PPT。
激烈厮杀过后,当热情消退,“百模大战”的终局将如何发展?
百度集团副总裁吴甜判断,国内“百模大战”将会走向在少量大模型上衍生出广泛应用生态的终局。大模型产业生态可类比芯片代工厂,把大数据、大算力、大算法都封装,建设自动化、数字化、标准化的生产模式。未来依托几个少量大模型,将会衍生出非常广泛的应用生态。
“像文心一言这样的大模型并不是想要做就能做起来的,需要有多年的积累、综合的能力和坚定的信心,一直投入下去,才能够做好。从这一点上可以看到,将来只能有少数的大模型。”
当下AI大模型还在“野蛮生长”阶段,此次IDC的评估报告的发布,不仅是主流AI大模型的真实水平的一次集中检验,更是“百模大战”终局的一次提前预演。相信随着炒作大潮褪去,谁在“裸泳”,即将一目了然了。