前言
Introduction
20岁正青春,共赴新成长。11月17日,亚杰商会第二十届年度峰会在北京举行,活动汇聚了来自全国各地的商业领袖、投资大咖、科技专家及创业新星,共同开启了一场创业智慧的盛宴。清华大学电子系主任汪玉教授出席了本次大会,分享了以《AI算力思考和发展》为主题的演讲。
汪玉
清华大学电子系主任
汪玉教授的演讲聚焦于人工智能领域的算力发展与应用。他首先回顾了从电子计算机到多核CPU的技术演进,随后分享了自己在人工智能(AI)加速器领域的科研与创业经历,强调了算力、数据和算法对AI发展的重要性。
最后,汪教授展望了未来AI与机器人的融合,强调应加强与物理世界的交互,实现人与机器的智能混合。(本文根据汪玉教授现场发言内容整理而来,文章配图来源汪玉教授PPT中)
以下为演讲全文↓
0
1
AI算力的历史演进与核心挑战
viewpoint
●The historical evolution and core challenges of AI computing power
首先,我要感谢文老师,他已经涵盖了许多我原计划要讲的内容。我们很有默契地都选择了《Thinking, Fast and Slow》这本书作为参考,我个人对它也是情有独钟。
丹尼尔·卡尼曼
《Thinking, Fast and Slow》
诺贝尔经济学奖得主丹尼尔·卡尼曼
——《Thinking, Fast and Slow》,图源百度百科
书中提出两个思维系统:一是快速直觉反应,二是慢速理性分析。
人类智能包括:
第一类系统(直觉/感知)是“大脑快速、自动、直观的方法”;
第二类系统(推理/认知)是“思维的慢速,理性占据主导地位的分析模式”。
下面进入正片~
(一)从通用计算到专用加速
——硬件人的y=f(x)视角
接下来,我要翻到第二页,这一页与文老师(文继荣)的内容有些相似。因此,我曾一度考虑是否还有必要继续讲述。大家看大屏幕,我也在讨论y=f(x)这个话题,但我是从硬件工程师的视角来阐述的。
在上世纪40、50年代,半导体技术的出现推动了计算机的发展。
那时的“f”是如何实现的呢?
它是通过最基本的加减乘除运算,以及数据的搬移和存储等指令,来设计CPU,从而实现通用计算。这就是我们当时所说的“f”。
作为硬件工程师,我们的任务就是在保持结构不变的前提下让这个“f”的计算变得快一点,一方面改进CPU架构,另一方面优化半导体工艺,从微米级一路缩减到纳米级,以提升每个操作的速度。最初,我们的目标是打造电脑,即用电来模拟大脑,实现“f”的快速计算。
人工智能阶段1:计算智能
人工智能阶段2:感知智能→人类智能系统I
人工智能阶段3:认知智能→人类智能系统II
说到我的个人经历,我毕业是在2007年,那时多核CPU已经出现。如果大家还记得的话,2005年就已经有了多核CPU。这意味着我们可以用更多的核来并行处理任务。
在我毕业之际,杨华中教授作为我的导师,给了我一个宝贵的建议:若想在清华担任教授职位,探索与导师不同的研究领域会是一条更有利的道路,因为清华电子系倾向于接纳具有独特研究视角的人才,避免在同一领域内过度重叠。如今,作为系主任,我也温和地提醒各位,当考虑留下学生继续深造或工作时,鼓励他们开辟与自己略有差异的研究方向或许会更加有益,这样不仅能促进学术的多元化发展,也能为每位学生提供更广阔的成长空间。
我之前是做EDA(ElectronicDesign Automation)的,即为集成电路设计提供设计工具。主要解决的是尺寸微缩时遇到的功耗和可靠性问题。(通过改进CPU架构和缩小工艺尺寸,提升计算速度。)虽然我是写代码出身的,但我对集成电路也有一定的了解。
后来,为了寻求不同的发展道路,我去了微软亚洲研究院(Microsoft Research Asia, MSRA),与继荣(文继荣)成为了院友。之后我又去了英特尔Intel,帮助微软内部唯一一个做硬件的组进行硬件加速,用于搜索任务。我们用一块卡就替代了几十台机器。当时我觉得这种方式很有前景,即用硬件来替代软件的做法。后来,我参与了一系列加速器的研发,并将这一领域作为我回到清华大学后的学术研究方向即针对特定应用领域的架构设计(domains specific architecture design )。
大家现在最熟悉的GPU(Graphics Processing Unit)就是针对图形图像处理领域设计的特殊处理器。(专用加速器如GPU、DPU等应运而生,针对特定任务进行优化,显著提升计算能效。)
然而,每个加速器的市场规模都有限。在座的各位如果创业的话,就会知道市场规模的重要性。如果市场不够大,就无法实现规模化发展。
对于芯片行业来说更是如此,芯片是按个数来卖的。如果你一年能卖出一个亿的手机,那么手机里所用的所有芯片都能上市,因为需求量足够大。但如果你只是做一个压缩算法的加速器,可能全世界的需求量相对较小,这样的产品通常很难上市,只能作为科学研究项目。
(二)神经网络加速器的兴起
——1. AI加速器的转折点
CNN的兴起:
AlexNet:2012年,AlexNet在ImageNet图像识别竞赛中取得了突破性进展,标志着CNN在计算机视觉领域的兴起。
VGG、GoogleNet:在2014年,VGG和GoogleNet等模型进一步推动了CNN的发展,提升了图像识别的准确率。
CNN的兴起为AI加速器提供了新机遇。⬇
直到2011、2012年,我们见证了CNN和DNN的兴起,神经网络以一种全新的方式展现了统一世界的潜力。
那时,深度学习的魅力在于,只要提供足够的标注数据(x和y),就能拟合出复杂的函数f。这正是我们当初研发AI加速器,特别是在CNN和DNN领域时所遵循的逻辑。这样的加速器能够应用于语音识别、图像处理等领域,这些领域以往难以用公式精确描述,或公式描述效率低下。而数据驱动的深度学习实现了一种“看图即知结果”的高效能力。
汪教授团队开发了面向CNN和DNN的加速器,通过软硬件协同优化,实现高效能计算。⬇
韩松、姚颂、汪玉(右三)、单弈
汪玉——联合创始人:11年体系结构研究经验,时任清华大学电子系长聘副教授,清华大学电子系党委副书记,国家自然科学基金“优青”获得者 ,ACM FPGA技术委员会亚太唯一成员,IEEE/ACM Senior Member。
韩松——联合创始人:全球最前沿深度学习压缩与体系结构研究 ,MIT EECS助理教授,斯坦福大学博士,师从Bill Dally教授 ,Deep Compression技术提出者 ,ICLR 2016 最佳论文。
姚颂——联合创始人&CEO:清华大学电子系毕业,斯坦福大学电子系访问学者,前清华大学电子系科协主席,MIT Tech Review 35岁以下35名创新者,福布斯亚洲30 Under 30。
单羿——CTO:清华大学电子系博士,伦敦帝国理工联合培养,IBM PhD Fellowship ,前百度IDL异构计算方向创始成员,前地平线机器人FPGA技术负责人。
(以上为创业时期介绍,仅供参考,以实际为准)
在2011、2012年左右,我开始着手这个项目,并组建了一支团队,其中包括韩松、姚颂和单弈等人。由于当时人事制度尚未改革,我还不能指导博士生,直到2013年才开始带硕士生,因此我主要依赖清华的本科生力量,而他们的表现确实非常出色。
到了2015年9月,经过一段时间的努力,我们团队中的本科生们终于完成了初步的研究成果,并随后投稿学术论文。
值得一提的是,就在15年年底,我获得了清华的长聘副教授职位,这意味着在清华改制后,只要我遵守规定,就能长期留任。
于是,在2015年12月,我们开始撰写商业计划书(BP),向外界介绍我们研发的面向CNN和DNN的通用加速器,对各行各业产生积极的推动影响。
紧接着,在2016年2月,正如继荣所提及的,AlphaGo的崛起让我们的初创公司受益匪浅。由于AlphaGo对算力的巨大需求,我们的公司估值因此翻倍。这一事件再次证明了算力研究的重要性及其潜力。
这是我们的第二个重要发展阶段。
(二)神经网络加速器的兴起
——2.深鉴科技的成功创办与并购
深鉴科技的成功创办与并购,推动了FPGA深度学习加速器的产业化,为全球AI芯片市场带来了创新力量。⬇
到了2018年,我们决定将公司出售给赛灵思。在此之前,市场上已有寒武纪、地平线和深鉴三家知名公司,而我们作为其中的第三家,估值相对稳健,达到了34亿美金。当时,周边房价飞涨,而我们的“房价”(即公司估值)却保持稳定。最终,我们被赛灵思收购,现在成为了其AMD部门的一部分。
出售公司后,我回到了学校,学生们纷纷询问我们接下来在学校的研究方向。大家讨论出,AI芯片领域已经竞争激烈,我们需要找到新的突破口。恰好,我的好朋友唐杰正在研究知识图谱(Knowledge Graph),我萌生了将深度学习与知识图谱相结合的想法。我认为,稀疏加速器正是处理这种稀疏数据结构的理想选择,因此我们将深度学习与知识图谱进行了融合尝试。
然而,在实践过程中,我们发现这一方向并不如预期般顺利。尽管如此,我们一直没有放弃对这个方向的探索,并持续关注着相关领域的进展。我们每年都在努力理解图中各个对象之间的关系,并尝试实现推理功能。直到大模型或人工智能2.0的出现,我们又看到了新的机遇,于是决定再次踏上创业之路。
0
2
AI算力的核心要素与未来趋势
viewpoint
● The core elements and future trends of AI computing power
(一) 人工智能核心三要素:
——1.算法、数据、算力
AI算力的提升离不开算法、数据和算力三者的协同发展。算法是智能的源泉,数据是训练的基础,算力则是实现算法和数据处理的关键。
关于人工智能的发展历程,大家或许已耳熟能详,但我想从算力的视角来重新梳理一番。
首先,算法的创新是推动人工智能进步的关键因素,它解决了线性和非线性等复杂问题。然而,早期由于计算能力的限制,即使有了反传等算法理论,也难以通过大量标注数据来有效训练神经网络。因此,算力不足成为了制约算法发展的瓶颈,一度导致人工神经网络被SVM等传统方法所超越。
随着技术的演进,算法和算力都迎来了质的飞跃。
算法的不断优化和计算能力的显著提升,使得人工智能得以持续进步。
同时,数据作为另一大基石,其重要性日益凸显。互联网和移动互联网的普及,以及各行各业的数字化转型,为人工智能提供了海量的数据资源,进一步推动了其发展。
在算法、数据和算力这三大要素中,我个人更偏向于算力方向。在清华大学的电子系,我们与人工智能学院、计算机系等多个部门紧密合作,共同探索人工智能的广阔天地。然而,面对算法领域的激烈竞争,我们意识到需要寻找自己的特色。
因此,我们决定从算力和数据两个角度入手。
在算力方面,我们致力于提升能量效率,通过技术创新实现计算性能的指数级提升。同时,我们也关注数据的应用价值,特别是在医疗和机器人领域。我们希望利用人工智能技术延长人类寿命,提高生活质量,并探索未来机器人服务社会的可能性。
当前,芯片领域的竞争异常激烈,尤其是人工智能算力芯片方面。面对技术封锁和制程限制等挑战,国家也在积极寻求解决方案。我们深知算力对于人工智能发展的重要性,因此将继续深耕这一领域,为垂类应用提供强大的算力支持。
回顾我的研究历程,早在2007年(Scaling Down逐渐放缓)我就转向了加速器方向的研究。当时我就意识到,传统的线性发展方式难以实现计算性能的指数级飞跃。因此一直在探索新的技术路径。我们的团队在提升能量效率方面取得了显著成果,将硬件能效由<1GOPS/W(CPU)提升至100TOPS/W,每瓦能耗能够支持更多的运算次数。这一成就不仅体现了我们在工程领域的实力,也为我们后续的发展奠定了坚实基础。
最后,我想分享一张当时的照片,那是我们团队在2015、2016年时的合影。那时我们年轻而充满激情,共同奋斗在人工智能的前沿领域。后来公司被收购,我们还向清华大学捐赠了一笔资金,以感谢母校对我们的支持和培养。从知识成果转化到作价入股,再到公司出售并回馈母校,我们完成了一个完美的闭环。
(二)面向未来通用人工智能:
——1.存算一体类脑计算范式
传统冯·诺依曼架构中的数据搬运成为AI算法处理性能及能效提升的瓶颈。
存算一体架构通过减少数据搬运,提高计算能效,成为未来AI芯片的重要发展方向。⬇
汪教授团队在存算一体领域取得了显著成果,通过软硬件协同优化,实现了高效能计算。未来存算一体技术将进一步成熟,为AI算力带来革命性变化。⬇
在当前这个阶段,大模型时代的基础设施建设似乎有些被过度炒作的意味,但实则也反映出了中美之间在技术发展上的差距。
面向大模型基础设施,我们团队专注于软件编译、调度与部署这一关键环节。
关于2.0的细节不得不提的是,这一领域对能耗和算力的需求极为庞大。(见图中数据)
我曾向我的学生们询问,当前的技术与上一代相比是否有本质上的变化。他们坦言,其实并没有,因为核心仍然是神经网络,只是规模上有了显著的扩大。
变化主要集中在神经网络的结构和神经元之间的连接上,也就是权重的调整。这意味着,我们只需对数据结构和数据表进行相应调整,其余部分则基本保持不变。既然原理未变,我们便可以在此基础上进行再次开发。
在深入探索后,我们发现,除了算法本身能带来万倍的性能提升外,通过优化基础软件和芯片设计,我们还有机会实现成本的大幅降低,降幅甚至可能达到千倍之多。这一发现让我们更加坚信,我们所从事的这项工作不仅具有技术价值,更蕴含着巨大的商业价值。
(二)面向未来通用人工智能:
——2.算力供需矛盾与工艺封锁
实现向国产基础设施的无感迁移,降低大模型应用的门槛和成本。AI算法算力需求激增,硬件系统能耗开销大,导致算力供不应求。⬇
所以我们看到基本上逻辑小于10纳米的芯片大多在台湾省生产,这确实是一个令人担忧的问题。因此,我们热切期盼中国大陆自主的制造能力能够崛起。
中国的发展速度之快令人瞩目,各地都在积极建设发展数据中心、算力中心。然而,能否充分利用好这些资源,目前看来仍有待提升。尽管报告指出产业生态日益完善,但显然还有进一步完善的空间。
为了应对当前的挑战,我们应该加强自主研发,努力突破先进工艺的封锁。同时,通过软硬件的协同优化,我们可以提升计算能效,降低能耗开销,从而更有效地利用资源。
对于正在创业的我们来说,硬件、能源、人力和时间成本都是不小的负担。因此,我认为在算力方面,如果我们能在某一层次上实现统一,以工具的形式提供物美价廉的算力资源给创业者使用,那将是一个非常好的选择。
0
3
面向未来的AI算力应用与展望
viewpoint
●Future oriented AI computing power applications and prospects
01
下一代人工智能是什么?
AI系统的未来趋势,将从信息处理向物理世界交互发展,实现感控一体化。
这意味着AI系统不仅能够理解环境,还能做出决策并控制执行机构,完成复杂任务。智能机器人、自动驾驶等领域将成为感控一体化系统的重要应用场景。未来这些系统将更加智能、自主,为人类带来更多便利。
02
算力基础设施的优化目标与统一策略
优化算力基础设施,让大家都有算力可用,支撑研究和工业的发展。通过软硬件协同设计、算法优化等手段,提升算力能效比和灵活性。同时,推动算力资源的统一管理和调度,降低使用门槛和成本。⬇
对于每种芯片而言,它们都各自拥有一套独特的生态系统。我们不禁思考,是否能够在这一领域构建一个类似于操作系统的中间层,使得用户在使用时能够“绕开”CUDA,仅通过简单的接口就能调用各式各样的芯片和模型。这正是我们致力于实现的目标,旨在为用户提供一个更加便捷、高效的芯片使用和模型调用环境。
因此,我们创立了一家名为“无问芯穹”的企业,专注于将各类芯片与模型实现无缝连接。企业名称中的“无”取自“无线电”“问”与“穹”则灵感来源于我们的校歌,经过深思熟虑后,我们决定采用这个富有深意的名字。
03
全球首次实现异构千卡混合训练
在国家大力建设算力中心的背景下,为了全面支持国产芯片,我们面临着如何高效整合并利用国内外不同芯片资源的挑战。我们不仅关注国产芯片的应用,也致力于让每一块芯片,无论国产还是进口,都能充分发挥其价值。
例如,无问芯穹大模型训练引擎助力摩尔线程性能调优并完成模型实训,我们投入了大量精力,调优后MTT 4000千卡集群实训精度对齐NVIDIA,实现了从模型训练初期到完成的全程应用,而不仅仅是进行微调。这意味着我们能够从头开始训练一个模型,并成功完成模型的实训工作。
体验无穹Infini-AI异构云平台
此外,我们还提供了一个云平台的二维码,方便用户更便捷地接入和使用我们的服务。
04
数据基础设施构建的重要性和方向
数据是AI发展的基石。构建完善的数据基础设施,将为AI模型的训练和应用提供有力支撑。加强数据采集、存储、处理和分析能力,推动数据资源的共享和开放。同时,注重数据安全和隐私保护,确保数据的合法合规使用。
0
4
结论与展望
viewpoint
● Conclusion and Prospect
面向下一代智能构建算力、数据基础设施:
目标1: 优化算力基础设施,让大家都有算力可用,支撑研究和工业的发展;
目标2: 建立数据基础设施及配套硬件,支撑具身智能发展。
对于未来,我坚信我们必将涉足机器人领域。作为电子系的系主任,我深感将芯片与软件同物理世界紧密结合的重要性,这也是我们与计算机领域同仁有所区分的关键所在。具体而言,我们的目标在于承担“小脑”的工作,即执行层面,同时探索如何在芯片内部实现“大脑”的复杂功能。
展望未来,我们将见证一个由多样智能体——包括人类与机器——共同协作的未来。我坚信,这样的未来必然建立在数据与公式的双重基础之上。并非要否定控制论过往的成就,但我认为,真正的挑战在于如何在这个新的时代背景下,将控制论与新兴技术相结合,共同推动智能体混合协作的未来向前发展。
谢谢!
阅读报告全文,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。