天天德州app中国网入口更好的硬件怎么将零值酿成AI加速引擎：稀少诡计让AI更轻量、更高效

发布日期：2026-05-09 12:40 来源：未知作者：admin 浏览次数：

在AI模子领域，畛域至关迫切。

尽管部分AI群众警戒称，抓续扩大大言语模子的畛域正在遇到性能收益递减的瓶颈，各大公司仍在不休推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子畛域的扩大，其才智也在增强，但随之而来的是更高的能耗需乞降更长的运行时候，进而加重了碳排放问题。为了缓解这些问题，业界驱动转向畛域较小、才智相对有限的模子，并尽可能采选低精度数值来暗示模子参数。

可是，还有另一条旅途，有望在保留超大模子高性能的同期，缩小运行时候、降稚子耗。这一措施的中枢，便是充分垄断大型AI模子里面多数存在的零值。

关于很多模子而言，大多数参数——包括权重和激活值——本色上齐是零，或者相当接近于零，齐全不错在不亏损精度的前提下将其视为零责罚。这种特质被称为稀少性。稀少性为简略诡计资源提供了广博契机：与其虚耗时候和能量对零进行加法或乘法运算，不如凯旋跳过这些诡计；与其在内存中存储多数零值，不如只保存非零参数。

缺憾的是，刻下主流硬件（如多核CPU和GPU）并弗成自然充分垄断稀少性。要委果阐扬稀少性的上风，接洽东说念主员和工程师需要从头念念考并重构通盘设计架构，涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的接洽团队中，咱们拓荒出了（据咱们所知）首款概况高效责罚千般稀少和传统责任负载的硬件芯片。在不同责任负载下，能耗简略幅度各别显耀，但平均而言，咱们的芯片能耗仅为CPU的七十分之一，诡计速率平均进步至CPU的八倍。为已毕这一见解，咱们从底层驱动，对硬件、固件和软件进行了全面的针对稀少性的工程设计。咱们但愿这只是硬件与模子协同发展的起先，最终已毕更高能效的AI。

数组与稀少暗示

神经相聚偏激输入数据以数字数组的体式暗示，这些数组不错是一维（向量）、二维（矩阵）或更高维度（张量）。稀少向量、矩阵或张量中大多数元素为零。稀少进程因情况而异，但当零值占比跳动50%时，就不错从挑升针对稀少性的诡计措施中获益。与之相对的是"密集"对象——即零值数目相干于元素总和较少的情况。

稀少性不错自然存在，也不错通过东说念主工神气引入。举例，酬酢相聚图自然便是稀少的。设计一个图，其中每个节点代表一个东说念主，每条边代表一段友谊干系。由于大多数东说念主彼此并不瓦解，暗示总计可能勾通干系的矩阵中绝大多数元素齐是零。其他AI应用场景，如图学习和保举模子，相通存在自然的稀少性。

鄙俗情况下，一个4×4的矩阵不管包含些许个零值，在内存中齐会占用16个存储空间。若矩阵是稀少的，即多数元素为零，则不错更高效地用"纤维树"结构暗示：领先是包含非零元素地点行坐标的"纤维"，勾通至包含非零元素列坐标的纤维，最终聚会到对应的非零值本人。在诡计机内存中存储纤维树时，每条纤维的端点（即"段"）会与坐标和数值一同保存。

除自然存在的稀少性外，还不错通过多种神气在AI模子中主动引入稀少性。两年前，Cerebras的接洽团队证明，不错将大言语模子中多达70%至80%的参数建立为零，而不亏损任何精度。Cerebras在Meta开源的Llama 7B模子上考证了这一论断，有关念念路相通适用于ChatGPT、Claude等其他大言语模子。

稀少诡计的上风

稀少诡计的高效性源于两个基本特质：压缩零值的才智，以及零的特殊数学性质。稀少诡讨论法和专用硬件齐充分垄断了这两个中枢念念路。

领先，稀少数据不错被压缩，从而以"稀少数据类型"的体式更简略内存地进行存储。压缩还能在责罚多数数据时诽谤数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例：传统神气会将其完好存储，占用16个内存空间；而压缩为稀少数据类型后，只需保留非零元素，仅占用3个存储空间，相较于正本的16个大幅简略。跟着稀少进程和矩阵畛域的增大，这种简略效果将更加显耀。

除本色数据值外，压缩数据还需要存储元数据，即非零元素的行诸君置信息。这鄙俗以"纤维树"的神气抒发：列出包含非零元素的行标签，并与对应的列标签赓续，进而聚会到存储在这些位置的数值。

在内存层面，情况更加复杂：每个非零值的行列标签，以及符号标签数目的"段"信息，齐需要一并存储，以便明晰分裂元数据和本色数据。

在密集、未压缩的矩阵数据类型中，不错一一或并行拜谒数值，且其位置可通过粗浅公式凯旋诡计。但在稀少压缩数据中，拜谒数值需要先查找行索引坐标，再"波折"查找列索引坐标，最终才能定位到见解值。由于稀少数据的位置具有赶紧性，这些波折查找操作可能极为赶紧，导致诡计流程依赖于数据本人，并需要动态分派内存拜谒。

其次，零的两个数学特质使软件和硬件不错多数跳过诡计：任何数乘以零等于零，因此无需本色奉行乘法；任何数加零等于其本人，因此加法也不错凯旋跳过。

在矩阵-向量乘法这一AI最常见的运算中，除触及两个非零元素的诡计以外，其余诡计均可跳过。昔时述4×4矩阵与一个四元素向量的乘法为例：在密集诡计中，需要16次乘法和16次加法；而在稀少诡计中，只需责罚向量中的非零元素，德州app(中国)网下载通过波折查找定位矩阵中对应的非零元素，仅对这部分进行乘加运算——在示例中，只需奉行两次乘法，而非16次。

现存硬件的局限

缺憾的是，当代硬件并不擅长加速稀少诡计。以矩阵-向量乘法为例，在单核CPU中，向量中的每个元素需一一相乘后写入内存，效用低下。因此，本色使用中时常借助救援向量运算的CPU或GPU，将总计元素并行责罚，大幅进步速率。但当矩阵和向量齐极为稀少时，向量化CPU和GPU的大部分算力齐虚耗在了与零的乘法运算上，产生多数无效诡计。

新一代GPU概况对一种特定类型的稀少性——结构化稀少性——进行一定进程的硬件加速。结构化稀少性假定每四个相邻参数中有两个为零。可是，部分模子更符合非结构化稀少性——即允许轻易参数（权重或激活值）为零并被压缩，不管其位置怎么。GPU不错通过软件神气（如cuSparse库）救援非结构化稀少诡计，但这种救援时常十分有限，GPU硬件垄断率偏低，多数算力破费在罕见支拨上。

在通过软件进行稀少诡计时，当代CPU偶然比GPU更具上风，因为CPU具备更好的机动性。但CPU在稀少诡计中常受限于波折查找操作带来的性能瓶颈。CPU鄙俗会字据预期需求对数据进行"预取"，但关于赶紧稀少数据，这一机制时常失效，导致CPU不得不虚耗时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中救援"指针数组"拜谒模式，加速了波折查找速率。尽管预取时候的革命使苹果CPU在稀少诡计方面更具竞争力，但CPU架构仍存在专用稀少诡计架构所不具备的根人道支拨，因为CPU需要兼顾通用诡计需求。

其他公司也在拓荒加速稀少机器学习的硬件，包括Cerebras的晶圆级引擎（Wafer Scale Engine）和Meta的测验与推理加速器（MTIA）。Cerebras的晶圆级引擎偏激配套稀少编程框架，在大言语模子上已毕了高达70%的稀少度，扫尾不凡。但其硬件和软件决议仅救援权重稀少性，不救援对很多应用至关迫切的激活值稀少性。MTIA第二版声称在稀少诡计性能上较初版进步七倍，但现在公开袒露的稀少性救援信息仅限于矩阵乘法，尚未隐蔽向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要诡计时候，但为其他运算提供稀少性救援相通至关迫切。为幸免在稀少与密集数据类型之间时时切换，总计操作齐应原生救援稀少责罚。

Onyx：从底层救援稀少诡计的硬件加速器

针对上述各类折中决议的不及，斯坦福大学团队研发了一款硬件加速器——Onyx，概况从底层充分垄断稀少性，不管是结构化还诟谇结构化稀少性均可救援。Onyx是首款可编程加速器，同期救援稀少和密集诡计，概况对两种模式下的缺点操作进行加速。

CPU、粗粒度可重构阵列（CGRA）和现场可编程门阵列（FPGA）代表了效用与机动性之间的不同衡量。CPU的每个逻辑单位针对特定功能高效设计；FPGA的每个比特均可建立，极具机动性但效用较低；CGRA则旨在兼顾FPGA的机动性与CPU的效用。

CGRA由针对特定应用领域优化的可建立内存和诡计单位组成，才智员不错在高端倪上对其里面进行从头建立，使其比FPGA更高效，同期比CPU更机动。

Onyx基于CGRA架构构建，由机动可编程的责罚单位（PE）模块和内存（MEM）模块组成。内存模块持重存储压缩矩阵和其他数据神态，责罚单位模块则凯旋对压缩矩阵进走运算，放弃总计无用要的无效诡计。

Onyx的编译器持重将软件辅导调遣为CGRA建立。领先，输入抒发式（如稀少向量乘法）被滚动为抽象内存节点和诡计节点组成的图；编译器将这些抽象节点映射到CGRA的内存模块和责罚单位上，并接头数据传输旅途；最终身成建立CGRA所需的辅导集。

由于Onyx具备可编程性，工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们采选"能量蔓延积"（EDP，即能耗与诡计时候的乘积）来评估硬件的效用进步，该方针空洞反应了速率与能耗之间的衡量干系。

Onyx的能量蔓延积最高可达使用专用稀少库的CPU（12核Intel至强责罚器）的565倍。此外，Onyx还可建立为加速旧例密集诡计应用，访佛GPU或TPU的责任神气：当诡计为稀少类型时，Onyx切换至稀少诡计模式；当诡计为密集类型时，则切换至并行加速模式。这一架构为在归并芯片上同期加速稀少与密集诡计迈出了迫切一步。

相通值得保重的是，Onyx开启了算法层面的新念念路。稀少加速硬件不仅能进步AI的性能效用和动力效用，还将激发接洽东说念主员和工程师探索具有冲破性后劲的新式算法。

将来预测

咱们的团队已在Onyx基础上入部属手拓荒下一代芯片。除矩阵乘法外，机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器偏激编译器添加对完好诡计类型的救援。由于稀少机器学习模子可能同期包含稀少层和密集层，咱们也在接洽怎么更高效地将密集与稀少加速架构集成于归并芯片，以已毕不同数据类型之间的快速调遣。此外，咱们还在探索通过更灵验地拆分稀少数据来冲破内存截止，从而在多个稀少加速芯片上协同运行诡计任务。

与此同期，咱们正在研发概况预测稀少加速器性能的系统，以赞成更优硬件的设计责任。从长久来看，咱们但愿不雅察高度稀少性是否会在更多模子类型中获得普及，以及稀少加速器是否会在更大畛域上获得应用。

为非结构化稀少性构建硬件、充分垄断零值的后劲，只是是个驱动。有了这么的硬件，AI接洽东说念主员和工程师将有契机探索以全新、阔绰创意的神气垄断稀少性的模子与算法。咱们服气，这是搪塞AI不休增长的运行时候、资本和环境影响的缺点接洽标的。

Q&A

Q1：什么是稀少诡计？它对AI有什么真谛？

A：稀少诡计是一种垄断AI模子中多数参数为零这一特质来跳过无效运算、压缩存储的诡计神气。由于模子中70%以上的参数可能为零或接近零，稀少诡计不错凯旋跳过与零有关的乘法和加法，从而显耀降稚子耗、加速运算速率，在不阵一火模子精度的前提下进步举座效用。

Q2：现存的GPU和CPU为什么弗成很好地救援稀少诡计？

A：GPU主要救援一种叫作念"结构化稀少性"的特定模式，对更机动的非结构化稀少性救援有限，导致多数算力被虚耗在无效的零值运算上。CPU诚然更机动，但在稀少诡计中常受限于赶紧内存拜谒导致的预取失败问题，相通存在效用瓶颈。两者齐穷乏从底层针对稀少诡计挑升设计的架构救援。

Q3：Onyx芯片比较泛泛CPU能进步些许性能？

A：Onyx在能量蔓延积（速率与能耗的空洞方针）上，最高可达12核Intel至强CPU的565倍。平均而言，Onyx的能耗仅为CPU的七十分之一，诡计速率则平均进步至CPU的八倍。Onyx同期救援稀少和密集诡计天天德州app中国网入口，概况字据任务类型自动切换诡计模式，是现在已知首款兼顾两种诡计模式的可编程加速器。

幸运5星彩app官方手机版

上一篇：上一篇：德州app 叙述称2025年苹果占据卫星智高手机市集七成份额

下一篇：下一篇：天天德州app中国网入口 OpenAI 硬件自在东谈主的闭门共享，向咱们揭示了为什么硬件「极端」仍是智高东谈主机

天天德州app

天天德州app中国网入口 更好的硬件怎么将零值酿成AI加速引擎：稀少诡计让AI更轻量、更高效

天天德州app中国网入口更好的硬件怎么将零值酿成AI加速引擎：稀少诡计让AI更轻量、更高效