电脑的iGPU集显,这几年是怎样进化到能玩3A游戏的?

电脑的iGPU集显,这几年是怎样进化到能玩3A游戏的?

电子工程专辑过去这些年一直在关注PC处理器集显(或核显,iGPU)的性能变化。前两年我们就撰文提过“集成显卡前尘往事:从只能点亮屏幕,到玩3A游戏”,并实测对比了历史上的酷睿1代与酷睿Ultra 1代,以及曾经的游戏本与现在的轻薄本,在游戏性能上的变化。

用现在的iGPU以全高画质玩多年前的3A游戏是不存在任何压力的;哪怕是玩当代3A游戏,降一降画质或分辨率,也完全可玩。这一方面自然能够淋漓尽致地体现半导体、计算机图形学技术这么多年来的显著进步;

更重要的是,从业务逻辑的角度来看,Intel和AMD现如今那么在意iGPU堆料,不仅在游戏上,与AI PC生态的打造也是分不开的;与此同时,对还在努力打拼独显市场的Intel而言,iGPU的强化既是为图形渲染与AI生态构建市场与技术积累的跳板,也是充分利用优势资源扩展GPU加速市场的关键。

而iGPU的强化在很快将要发布的Panther Lake——也就是传说中用于笔记本的酷睿Ultra 3代处理器之上,还将进一步升级。

从Ice Lake到Panther Lake

今年初的产品试用过程中,给我们留下深刻印象的一个测试项是:分别用Arrandale(酷睿1代,2010年)、Lakefield(与酷睿10代近亲,2020年)、Lunar Lake(酷睿Ultra 2代,2025年)去跑《CS:GO》,三者的成绩为7.6fps, 41.3fps, 326.7fps——即单从这款游戏来看,笔记本处理器iGPU的图形性能提升了超过40倍。这个令人惊叹的数字实则还不能完全反映技术进步,包括功耗下降与效率提升、新增的现代化图形特性支持等等都没有在此反映出来...

在Intel的产品路线图上,近代PC处理器的iGPU强化之战拉响,在我们看来应该是从Ice Lake(酷睿10代)开始的——因为在此之前的iGPU虽然也总伴随性能升级,但除开Kaby Lake-G(酷睿8代)这种“集显怪胎”,以前应当不会有人将iGPU和3A游戏扯上关系。

2019年问世的Ice Lake移动处理器,首次给iGPU堆了至多64EU(执行单元)资源——和10nm工艺在酷睿处理器上的首次大规模商用自然是分不开的,当时Intel还赋予其“Iris Plus”这一品牌名;相比上代实现了游戏帧率50-80%的飞跃,在iGPU历史上称得上是个大跨步。

转年的Tiger Lake(酷睿11代)iGPU架构换新的同时,执行单元数量扩增50%,“Xe”这个GPU品牌也是从此时启用的;配合频率、缓存的大幅提升,标称实现2-3倍游戏性能提升,一度成为当时(2020年)最彪悍的笔记本处理器iGPU。后续的Alder Lake(酷睿12代)、Raptor Lake(酷睿13、14代)都沿用了相似规模的Xe-LP iGPU。

抛开Meteor Lake(酷睿Ultra 1代)首度开始在消费级CPU领域采用2.5D先进封装这一系统性革新不谈,这代处理器的iGPU架构迭代至Xe-LPG,除新增DirectX 12 Ultimate特性,包括首次在iGPU上实现了对于光线追踪的支持,图形渲染性能和能效也做到了相比Xe-LP的翻番。AI PC概念也是自这一代诞生的,Intel逐步开始在PC处理器产品上强调AI算力,iGPU是中坚力量。

接下来就是2024年底上市、更多人熟悉的Lunar Lake(酷睿Ultra 2代、200V系列)iGPU架构迭代至Xe2,图形性能整体提升50%,AI性能则是Meteor Lake的3.5倍。这应该也是Intel头一次将同一个核心架构,同时用在iGPU和dGPU上——同期问世的Arc B系列独显也在用Xe2。

从基础物理世界的角度出发,我们不该苛求iGPU性能有一天超越同代dGPU,因为功耗、散热、晶体管数量限制都令前者存在绝对物理意义上的弱势。但显然从上述iGPU“近代发展史”就不难理解,为什么现在的轻薄本都能玩得上《赛博朋克2077》——毕竟在架构革新、晶体管微缩(即摩尔定律)、先进封装进步(超越摩尔)的同时,还有XeSS这类AI超分或插帧软件优化技术协力——这几个要素就是当代iGPU玩上3A游戏的核心。

今年10月Intel谈即将在明年初问世、用上Intel 18A工艺、2.5D/3D先进封装的Panther Lake处理器,也重点谈到了升级Xe3核心的iGPU,除了INT8算力峰值性能达到120TOPS,相比Lunar Lake再提50%图形性能;能效方面,也比Arrow Lake-H(酷睿Ultra 200H系列)的每瓦图形性能提升超过40%。当时我们就说,如果这个数字确实,那么Panther Lake的iGPU图形渲染性能就追上了笔记本GeForce RTX 3050独显...

上面这张图给出了Panther Lake相比Lunar Lake,在都限定17W TDP的情况下,以1080p中画质跑包括《黑神话:悟空》《霍格沃茨之遗》《赛博朋克2077》《CS2》《DOTA2》在内的部分游戏时的游戏性能提升情况(平均帧与1% low帧)。

不谈相比上代的游戏性能提升,或者相比独显性能怎样,现在的iGPU以17W的功耗,就能以52fps的平均帧去玩1080p中画质《赛博朋克2077》,或者62fps跑1080p中画质《漫威蜘蛛侠重制版》,这在2-3年前还是不可想象的。

明年的高性能iGPU长什么样?

作为即将在明年量产铺货的笔记本处理器,Panther Lake的iGPU因此代表着轻薄与全能本产品的游戏性能水平——当然也代表支持GPU通用及AI加速的实现程度。Intel说,Panther Lake芯片之上的iGPU是Intel有史以来性能最强、die size最大的核显,也是能够说明PC平台卷iGPU的竞争方向的。

值得一提的是,像隔壁Strix Halo、Mx Ultra、GB10这类芯片虽然在“iGPU”规模上更为激进,但很难算作PC市场的主流产品。而且和另外几名市场参与者不同,虽然Intel在iGPU领域耕耘多年,但在桌面显卡市场却是个新晋挑战者,其成长轨迹也显然更具代表性。那么我们就借着Panther Lake来看看当代iGPU长什么样。

在整颗Panther Lake芯片封装层面,这代仍然采用了chiplet + 2.5D/3D先进封装方案,iGPU位于其中的GPU tile图形模块之上。“相比Lunar Lake,我们将GPU单独部署在专用图形模块中;好处是可根据不同应用场景来调整GPU规模,按需定制。”如前所述,以摩尔定律为依托的晶体管微缩是iGPU跑3A游戏的基础,而先进封装在此基础上又推了一把力。

此外,Foveros-S封装方案的引入还提供了配置的灵活性,不同配置的芯片能够面向不同的市场(比如PC之外的边缘应用)。此前Intel列出的可扩展性架构方案涵盖4点,包括:IP与partitioning无关的fabric(互联架构)、Foveros-S封装技术、面向不同领域可扩展的独立GPU tile、分组的IO与基于平台的IP。这种非对称的chiplet设计与AMD、苹果的思路都不同,不过在异构处理器的可扩展性上,在我们看来会有更长的生命周期。

架构解析文章里,我们就谈过这次不同SKU的芯片,GPU tile有些采用Intel 3工艺,有些采用TSMC N6工艺——多foundry,还真是标准化设计方法在Intel Products内部贯彻的体现。Panther Lake的不同SKU,有4个Xe核心与12个Xe核心版本可选,就能满足不同市场的需求。

而有机会“媲美入门级独显,应对3A游戏、AI推理高负载场景”的,显然就是其中的12 Xe核心版。虽然酷睿Ultra 3代产品SKU尚未公布,不过Panther Lake系列处理器之中,CPU 16个核心 + iGPU 12个Xe核心的配置,显然就是为注重性能、不准备配独显的笔记本产品准备的了;

另一个潜在应用场景也可能是游戏掌机,毕竟其图形性能与能效对掌机而言都是相当理想的(或者未来基于配置规格的可裁剪,也会有其他配置版本问世)...至于CPU 8核/16核 + iGPU 4核Xe,及配套不同的内存频率与IO通道支持,并非本文要探讨的重点,此处不再赘述。

更大规模的iGPU架构

可能是市场对于新增一名PC显卡参与者的渴望迫切,今年3月国外媒体Chips and Cheese就基于已公开的开源库,撰文分析过Xe3架构的走向:毕竟大家都太想看到,在双寡头市场之下,蓝厂作为挑战者能在桌面显卡市场崛起了。而架构创新,是iGPU玩3A游戏的又一块拼图。

这篇文章可能有一部分是在谈接下来要用在Arc独显上的Xe3P架构,不过同代架构应当还是有共性的。Chips and Cheese基于当时的有限资料给出了整体正面评价:Xe3相比Xe2是图形架构的大跨步:包括更大规模的渲染切片、新的寄存器堆、新增指令(如xdpas,sparse systolic dot product with accumulate)等:

尤其更高的资源占用、动态寄存器分配,都让Xe核心能够更好地隐藏延迟、提升资源利用率;XVE矢量引擎的改良,则表明Intel仍在对核心计算架构做有效进化,相对的另外两家其实在近几代产品中,已经不怎么在这部分做大更动了;光线追踪STOC(sub-triangle opacity culling)实现,则能够更大程度避免资源浪费...

今年的Panther Lake架构解析媒体会上,Intel表示Xe3在架构设计上更多考虑了可扩展性——这也是Panther Lake处理器会有4核、12核两种规格的基础(猜测也是多foundry实现的基础)。

Xe3渲染切片构成本身就相对灵活。4核版Xe3核显的每片渲染切片内都有2个Xe3核心,2个RTU光线追踪单元,以及其他固定功能共享图形单元;4个Xe3核心总共32个矢量和XMX矩阵扩展引擎、4MB L2 cache、1个几何管线、4个纹理采样器、4个RTU(光线追踪单元,2个像素后端。

而12个Xe3核心的iGPU,每片渲染切片内扩展到了6个Xe3核心——如Chips and Cheese推测的那样,的确相比Xe2有了更大的渲染切片规格,上代的单个渲染切片内最多容纳的Xe核心数量是4个。如此一来12 Xe3核心的iGPU,就能堆出96个矢量与XMX引擎——显著更高的AI性能,总共16MB L2 cache, 2个几何管线,12个采样器,12个RTU,4个像素后端。

具体到Xe3核心内部,每个Xe3核心包含有8个512bit矢量引擎,8个2048bit XMX矩阵扩展引擎,L1 cache/SLM容量相比上代增加33%。和Chips and Cheese此前的解释完全一致,Xe3的矢量引擎的确变宽了,线程数最多增加25%,增加“可变寄存器分配”,整体提升矢量引擎的利用率和并行度;同时支持FP8反量化。

达成AI加速的XMX引擎,支持的单周期操作数分别为TF32 1024、FP16/BF16 2048、INT8 4096、INT4/INT2 8192,相比上代的理论性能提升幅度是不小的。12个Xe3核心XMX引擎达成的INT8峰值算力标称为120TOPS,是为下一代AI PC的关键角色;当然它也负责XeSS超分与帧生成。

此外,RTU光线追踪单元的加强,“支持异步光线追踪的动态光线管理”,“通过更好的调度机制,在拥塞即将到来时降低光线分发频率,提升光线追踪负载性能”;固定功能管线部分,采用新的URB(Unified Return Buffer,用于线程或固定功能单元的数据传输)管理器——支持仅部分URB传输同步,“帮助最高支持2倍异向性过滤”以及“模板测试速率最高提升2倍”。

所以Xe3在micro-benchmark细分项测试中,“后端部分由于Xe3保持同样的硬件资源,定点速率、颜色混合这类性能基本保持不变”;“在主要相关运算单元的GEMM、FP32/INT32速率测试中,性能提升约1.5倍,源于更大的render slice设计”;

“微架构层面的新特性引入,则帮助实现了在如射线三角形焦点、滤波、网格体渲染、分散读取方面的2倍性能提升;对一些关键单元的特殊优化,让高寄存器压力着色器和深度写入测试达成了更大幅度的提升。”

用iGPU玩3A游戏、推理AI大模型的时代

实际上,就用iGPU玩3A游戏、推理AI大模型这个话题,另一块应当要谈的是软件:包括驱动及更多中间件、库、工具等。只不过受限于篇幅,这部分再做展开又能成文一篇了。

如果要说软件部分具代表性的努力,那无疑就是配套的XeSS技术了。在XeSS一代AI超分的基础上,2024年末Arc B系列独显问世的XeSS2也加上了AI帧生成(XeSS-FG)与低延迟(XeLL)配套技术,相继也有了越来越多的游戏做出支持。这次随Panther Lake的发布,XeSS-MFG多帧生成也来了——即在渲染的帧之间生成、插入不止1帧,倍增游戏帧率,简单流程如下图所示。

XeSS超分、帧生成、低延迟及同类技术,对于图形渲染晶体管、功耗受限的场景而言,本身也会是iGPU未来能够更流畅跑3A游戏的关键,是AI技术在游戏及图形渲染领域应用的开端,当然也考验Intel在游戏领域的生态建设能力。所以XeSS的未来发展,就软件层面还是颇具代表性的。

AI部分,围绕OpenVINO推理引擎的端到端全栈也是Intel努力的方向,即便硬件部分的iGPU并非这部分生态的全部,电子工程专辑以往也撰文不少,这里不再对此做深入。实际上,这些年iGPU的算力突进,与AI PC的发展与端侧AI普惠一定程度上也是有莫大关联的。

而2026年Panther Lake的问世,iGPU部分不仅为后续同家族架构的Arc独显在软硬件两方面探了路,而且也在续写AI PC时代的端侧AI普惠,以及用iGPU带3A游戏的故事。Panther Lake在备受我们期待的同时,在iGPU集显/核显的性能与效率推进历程中,和Ice Lake、Tiger Lake、Lunar Lake等前辈一样,无疑也会有一席之地——很多玩家期待的集显玩3A,实则是已经实现并不断推进的现在进行时……

责编:Illumi

相关推荐