(广州海格通信集团股份有限公司,广东,广州 510700)
摘要:本文主要针对飞腾与兆芯的CPU产品,从公司历史、自主可控、主打芯片性能和发展规划四个方面进行了全方位对比分析。
关键字:飞腾、兆芯、威盛、CPU
0.引言
CPU作为计算机设备的运算和控制核心,负责指令读取、译码与执行,因研发门槛高、生态构建难,被认为是集成电路产业中的“珠穆朗玛峰”。
纵观全球,Intel、AMD两大巨头领跑通用CPU(桌面与服务器CPU)市场;国内,国产CPU正处于奋力追赶的关键时期,以飞腾、兆芯等为代表的厂商正全力打造“中国芯”。
本文将重点围绕飞腾与兆芯的 CPU产品的发展历史与性能发展等作对比分析。
公司历史对比
飞腾公司成立于2014年,由天津市军民融合研究院、中国电子信息产业集团(CEC)、天津市滨海新区联合成立,致力于兼容ARM指令集的国产CPU研发,以自主设计保安全、以成熟生态促发展,快速推动国产CPU的产业化应用,成为国内产品谱系最齐全、产品性能最高、聚焦国家战略需求的处理器企业,产品性能达到国内领先、国际一流水平。CPU产品涵盖服务器、桌面终端、嵌入式等领域,相关产品包括中高端服务器、网络设备、存储设备、安全设备、PC机、笔记本、一体机、超薄本、瘦终端和嵌入式板卡等多种类型。
上海兆芯集成电路有限公司(以下简称“兆芯”)成立于2013年,由上海国资委、威盛电子出资成立,总部位于上海张江,在北京、西安、武汉、深圳等地均设有研发中心和分支机构。兆芯研发的中央处理器采用来自台湾威盛电子授权的X86指令集,自2010年起在通用CPU产品研制方面走过了一条先贴牌后仿制再修改原始设计进行改进创新的发展道路。兆芯CPU涵盖桌面、服务器、嵌入式三类,主打桌面CPU产品,服务器及嵌入式CPU相对较弱,相关整机产品覆盖台式机、笔记本、一体机、存储服务器、磁盘阵列、工控整机等多种形态。
自主可控对比
CPU自主可控程度将从指令集、CPU设计和制造等方面进行对比。
指令集
飞腾拥有ARMv8指令集所有版本的永久授权,并可以采取提出新指令与ARM公司会商成为公用指令、采用预留的用户自定义接口扩展、在未使用的编码空间定义专用指令等3种方式,扩展ARM公用和飞腾专用指令集。目前飞腾主要采取前两种方式,提出的面向高性能计算指令已纳入ARM指令集,并根据自主设计的微结构,实现了飞腾特定的寄存器和系统级指令,今后也可根据特殊需求自己扩展专用指令,可以实现自主可控又兼容国际开放标准。
威盛电子成立于1987年,最初主要从事芯片组设计业务,2000年获得了Intel的X86架构授权,并进行了自主设计,威盛也成为Intel、AMD之外全球唯一一家拥有X86架构授权的公司。2013年,兆芯通过成立合资公司的形式,获得威盛的X86架构授权,但这种授权的形式存在着一些“不可控”的因素,因为其技术来源始终是受制于合资的外资公司,技术的后续升级也可能存在一定难度。
CPU设计
基于指令集授权,飞腾通过自主设计微架构的方式设计实现CPU处理器核,即底层电路的设计代码均是自己写的,从根本上确保了芯片设计过程中不会有“恶意后门”,对设计代码完全可控。
兆芯掌握中央处理器、图形处理器、芯片组三大核心技术,拥有三大核心芯片及相关IP的设计研发能力。自成立以来,兆芯一直在引进的X86源代码和微结构基础上做工作,走了一条引进、复现、吸收、改进优化的研发路线。
目前,飞腾低端芯片(40nm及以下)在中芯国际流片,高端芯片28nm和16nm产品在台积电台湾厂流片,同时,已经在中芯国际14nm生产线安排流片计划,随着中芯国际14nm成熟和良品率提高,将全面转到境内流片。
兆芯采用40nm、28nm制程的低端工艺CPU芯片由上海华力微电子(HLMC)代工, 高端的16nm制程工艺CPU芯片由台积电代工。
主打芯片性能对比
飞腾现有CPU产品共5款,分别为高效能桌面CPU FT-2000/4和FT-1500A/4,高性能服务器CPU FT-2000+/64和FT-1500A/16 ,以及高端嵌入式CPU FT-2000A/2。
兆芯现有10款24个型号的CPU芯片,以“开先”开头命名的为桌面CPU,以“开胜”开头命名的为服务器CPU。当前,兆芯主打的桌面CPU产品为开先KX-6000系列4核、8核处理器,开胜KH-30000系列8核处理器。
桌面CPU对比
飞腾高效能桌面CPU FT-2000/4于2019年9月发布,采用ARMv8架构, 16nm工艺,主频2.6-3.0GHz,
集成4个64位飞腾自研的CPU核FTC-663,内置2个DDR4内存控制器,集成34个lane的PCIE3.0接口,内置可信计算3.0机制,支持UEFI+ACPI,支持待机和休眠,功耗10W,相当于Intel Core I5系列水平。
开先KX-6000系列4核处理器于2019年6月发布,16nm工艺,单芯片集成4颗核心、内置双通道DDR4内存控制器、3D图形加速引擎、高清流媒体解码器、以及PCIe3.0、SATA、USB等通用外设接口,可提供基于硬件的数据加密保护。开先KX-6000系列4核处理器,可以满足多种市场的应用需求,主要面向便携终端、嵌入式等市场应用领域。开先KX-6000系列8核处理器,单芯片集成8颗核心,其余指标与4核产品相同,可以满足多种市场的应用需求,主要面向高性能桌面市场应用领域。
上述三款桌面 CPU 芯片的具体技术指标对比如下表所列。
指标项 | FT-2000/4 | KX-6640A(4核) | KX-U6880A(8核) |
架构 | ARMv8架构,支持ARM64指令集 | X86 and X64(64-bit),支持SSE4.2/AVX 扩展 | X86 and x64(64-bit),支持SSE4.2/AVX 扩展 |
工艺 | 16nm | 16nm | 16nm |
主频 | 2.6~3.0GHz | 2.6GHz | 3.0GHz |
内核 | 4个FTC-663,4线程 | 4核心,4线程 | 8核心,8线程 |
高速缓存 | 4MB L2 Cache,每2个核共享2MB | 4 Cores with 4MB L2 Cache | 8 Cores with 8MB L2 Cache |
内存控制器 | 2 个DDR4/3200MHz通道,最高容量可达 64GB,支持ECC校验 | 支持双通道 DDR4/2666MHz内存,最高容量可达 64GB | 支持双通道 DDR4/2666MHz内存,最高容量可达 64GB |
安全机制 | 集成SM2/SM3/SM4密码加速引擎,支持可信计算3.0,支持对DDR存储数据进行实时加密 | 支持加密引擎ACE,支持SHA-1算法、SHA-256算法和SM3/SM4,支持随机数发生器,支持NoExecute | 支持加密引擎ACE,支持SHA-1算法、SHA-256算法和SM3/SM4,支持随机数发生器,支持NoExecute |
外设接口 | 集成2路X16 PCIE3.0接口(每路可拆分为两个X8),2 路X1 PCIE3.0接口;集成2个千兆网口,1个SD2.0 控制器,1个高保真音频接口;集成4个UART,1个 LPC Master,32个GPIO,4个I2C,1个QSPI,2个通用SPI,3 个CAN2.0。 | 支持1个X16 PCIe3.0,2个USB3.1,4个USB2.0和2个SATA3.2接口 | 支持1个X16 PCIe3.0,2个USB3.1,4个USB2.0和2个SATA3.2接口 |
显卡 | 未集成 | 集 成 显 卡C-960, 支 持 3D/2D,Directx11, OpenCL1.1,OpenGL 3.2, 硬件加速的视频编解码,支持4K输出,以及DP/eDP/HDMI/VGA接口,最多支持3个显示器 | 集 成 显 卡C-960, 支 持 3D/2D,Directx11, OpenCL1.1,OpenGL 3.2, 硬件加速的视频编解码,支持4K输出,以及DP/eDP/HDMI/VGA接口,最多支持3个显示器 |
电源管理 | 采用DVFS技术,支持待机和休眠,支持温度监控和过热保护 | 温度监控和过热保护,支持C-States(C1-C4),支持P-State | 温度监控和过热保护,支持C-States(C1-C4),支持P-State |
功耗 | 10W | 约35W | 约60W |
封装 | 35mm x 35mm | 35mm x 35mm | 35mm x 35mm |
飞腾FT-2000/4与KX-U6640A(4核)、KX-U6880A(8核)在计算性能(SPEC CPU2006测试)和内存访问性能方面(STREAM 测试)的对比数据如下表所列。
性能测试项 | FT-2000/4 | KX-6640A(4核) | KX-U6880A(8核) | |
SPEC CPU2006测试 | Specint2006(单核指标) | 18.3 | 24.4 | 29.2 |
Specint rate2006(芯片整体指标) | 61.1 | 78.6 | 170 | |
Specfp2006(单核指标) | 18.6 | 29.3 | 38 | |
Specfp rate2006(芯片整体指标) | 62.5 | 63.8 | 120 | |
STREAM5.10测试(Triad) | 单线程 | 8172.4MB/s | — | 15174.9MB/s |
4线程/8线程 | 19330.6MB/s | — | 22915.6MB/s |
从上述对比表中,KX-6640A单核心计算性能较FT-2000/4要强1.2倍左右,所以全芯片的整数计算性能比FT-2000/4稍强,但整体的浮点计算性能与FT-2000/4相当,说明在浮点计算方面,KX-6640A在多核协同方面做得不够好。但KX-6640A功耗是FT-2000/4的3.5倍左右,所以从能耗比角度来看,FT-2000/4是KX-6640A的3倍左右。由于KX-U6880A的单核心计算性能较核心FT-2000/4要强,且核心数是后者2倍,因此,总体计算性能相当于后者的2到3倍,但整体访存性能相当。综合比较上述两个表,可知KX-U6880A的典型功耗约有60W,而 FT-2000/4仅有10W左右,因此在能效比方面FT-2000/4是KX-U6880A的2倍以上。
服务器CPU对比
飞腾高性能服务器CPU FT-2000+/64于2017年5月发布,采用ARMv8架构,16nm工艺,主频2.0-2.3GHz,集成64个64位飞腾自研的CPU核FTC-662,内置8个DDR4内存控制器,集成33个lane的PCIE3.0接口,功耗约100W,相当于Intel2014年的E5-2695v3系列水平。主要应用于高性能、高吞吐率服务器领域。
兆芯开先KH-30000系列8核处理器于2019年6月发布,16nm工艺,主频2.7GHz,集成8颗核心,内置双通道DDR4内存控制器,最高容量可达64GB或128GB(双路),支持芯片间双路互联技术,主要面向服务器、存储等市场等应用领域。
上述两款芯片具体技术指标对比如下表所列。
指标项 | FT-2000+/64 | KH-37800D |
架构 | ARMv8架构,支持ARM64指令集 | X86 and X64(64-bit),支持SSE4.2/AVX 扩展 |
工艺 | 16nm | 16nm |
主频 | 2.0~2.3GHz | 2.7GHz |
内核 | 64个FTC-662,64线程 | 8核心,8线程 |
高速缓存 | 32MB L2 Cache,每2个核共享2MB | 8 Cores with 8MB L2 Cache |
内存控制器 | 8个DDR4/3200MHz通道,最高容量可达1TB,支持 ECC 校验 | 支持双通道DDR4/2666MHz内存,最高容量可达64GB(双路可达128GB),支持ECC校验 |
安全机制 | — | 支持SHA-1算法、SHA-256算法和SM3/SM4 |
硬件辅助虚拟化 | 支持 | 支持 |
外设接口 | 集成2路X16 PCIE3.0接口(每路可拆分为两个X8),1路X1 PCIE3.0接口;集成3个UART,1个LPC,32个GPIO,2个I2C,1个通用SPI | 支持1个X16 PCIe 3.0,2 个USB3.1,4个USB2.0和 2个SATA 3.2接口 |
电源管理 | 采用DVFS技术,支持温度监控和过热保护 | 温度监控和过热保护,支持C-States(C1-C4),支持P-State |
功耗 | 100W | 50W左右 |
封装 | 61mm x 61mm | 35mm x 35mm |
飞腾 FT-2000+/64 与兆芯 KH-37800D 在计算性能和内存访问性能方面的对比数据如下表所列。
性能测试项 | FT-2000+/64 | KH-37800D | |
SPEC CPU2006测试 | Specint2006(单核指标) | 13.5 | 28.8 |
Specint rate2006(芯片整体指标) | 522 | 316 | |
Specfp2006(单核指标) | 13.1 | 36.1 | |
Specfp rate2006(芯片整体指标) | 486 | 214 | |
STREAM5.10测试(Triad) | 单线程 | 8906.55MB/s | 13168.2MB/s |
64线程/16线程 | 97234.51MB/s | 40357.3MB/s |
从上述对比表中,可以看出FT-2000+/64的整数和浮点整体计算性能相当于KH-37800D的2倍左右。整体访存性能,单颗FT-2000+/64是2颗 KH-37800D的2倍。在功耗方面,预估典型功耗约为 50W 左右,又因为两路 CPU 互联无法实现性能翻倍,因此单颗 FT-2000+/64 的能效比优于两路互联的 KH-37800D。
发展规划对比
目前,飞腾在研产品主要包括多路服务器芯片 FT-2X00(2019 年底已流片返回,支持 2-8 路互连)、高性能服务器芯片 FT-XXXX(2021 年中流片,更高主频,更高性能,支持 2-8 路互连)、高性能计算加速器芯片(2020 年流片,用于新一代天河超级计算机),同时为特定用户定制新的嵌入式工控芯片(2020 年中流片,可作为 BMC 芯片和飞腾套片,进一步提高国产化率)。到 2023 年,随着一系列产品的升级和新品的研制,将进一步巩固飞腾 CPU 在国产 CPU 领域的领先地位,飞腾 CPU 芯片的性能达到国际先进水平,并在国际市场竞争中占据可观的市场份额。
兆芯自主研发的下一代通用处理器将专门面向高性能服务器产品市场,根据产品序列,这款处理器将被命名为开胜 KH-40000 系列处理器。开胜 KH-40000 系列处理器预计于 2021 年正式推出,该产品拥有全新的自主 CPU 微架构设计,基于 16nm 工艺,并继续沿用 SoC 方案,单颗处理器 CPU 核心数量达到现有开胜 KH-30000 系列处理器的 4 倍。同时 KH-40000 将继续支持双路互联,即系统内最多可达 64 核心,并支持 DDR4 内存和 PCIe 3.0。兆芯正在研发 7nm 以下工艺产品,其是 KX-7000 系列处理器,将采用全新的自主 CPU 微架构,并延续 SoC 设计方案,集成显卡支持 DirectX12,在内存、USB、PCIe 等规范方面,也将瞄准国际同期主流水准。
参考文献:
[1] 飞腾系列处理器数据手册V1.5. 天津飞腾信息技术有限公司,2021
[2] 兆芯高性能通用处理器. 上海兆芯集成电路有限公司,2021
作者简介:陶然(1980.09),男,安徽芜湖市人,硕士,高级工程师。主要从事人工智能,无人车,机器人方向研究。
9