后ChatGPT时代下的大模型“算力难”问题,“快、好、省”的解法,又来了一个。
就在今天,享有“AI界奥运会”之称的全球权威AI基准评测MLPerf Inference v3.0,公布了最新结果——来自中国的AI芯片公司,墨芯人工智能(下文简称“墨芯”),在最激烈的ResNet50模型比拼中夺冠!
而且在此成绩背后,墨芯给大模型时代下的智能算力问题,提供了一个非常具有价值的方向——它夺冠所凭借的稀疏计算,堪称是大模型时代最不容忽视的算力“潜力股”。
不仅如此,墨芯此次还是斩获了开放任务分区“双料冠军”的那种:墨芯S40计算卡,以127,375 FPS,获得单卡算力全球第一;
墨芯S30计算卡,以383,520 FPS算力,获整机4卡算力全球第一。
而且墨芯靠着这套打法,在制程方面更是用首颗稀疏计算芯片12nm的AntoumⓇ打败了4nm。
不得不提的是,这次对于墨芯而言,还是“梅开二度”;因为它在上一届MLPerf,凭借S30同样是拿下了冠军。
在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡在仅采用中低倍稀疏率的情况下,就能实现25 tokens/s的内容生成速度,超过8张A100。
而ChatGPT的火热,无疑加速了这一变革。在真实需求的推动下,算力领域硬件软件创新突破也会更快发生,模型会重新定义算法,算法会重新定义芯片。
墨芯在MLPerf中开放分区的提交结果刷新记录,也是对这一路线的进一步印证。
据透露,不仅在MLPerf上表现出色,墨芯的产品商业落地上也进展迅速。墨芯AI计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与潜力。
如今,ChatGPT开启新一轮AI浪潮,大模型领域开启竞速赛、算力需求空前暴增。如微软为训练ChatGPT打造了一台超算——由上万张英伟达A100芯片打造,甚至专门为此调整了服务器架构,只为给ChatGPT和新必应AI提供更好的算力。还在Azure的60多个数据中心部署了几十万张GPU,用于ChatGPT的推理。毕竟,只有充足的算力支持,才能推动模型更快迭代升级。怪不得行业内有声音说,这轮趋势,英伟达当属最大幕后赢家。
但与此同时,摩尔定律式微也是事实,单纯堆硬件已经无法满足当下算力需求,由此这也推动了算力行业迎来更新一轮机遇和变革。可以看到,近两年并行计算等加速方案愈发火热,这就是已经发生的变化。
墨芯在MLPerf中开放分区的提交结果刷新记录,也是对这一路线的进一步印证。
据透露,不仅在MLPerf上表现出色,墨芯的产品商业落地上也进展迅速。
墨芯AI计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与潜力。
如今,ChatGPT开启新一轮AI浪潮,大模型领域开启竞速赛、算力需求空前暴增。
如微软为训练ChatGPT打造了一台超算——由上万张英伟达A100芯片打造,甚至专门为此调整了服务器架构,只为给ChatGPT和新必应AI提供更好的算力。还在Azure的60多个数据中心部署了几十万张GPU,用于ChatGPT的推理。毕竟,只有充足的算力支持,才能推动模型更快迭代升级。怪不得行业内有声音说,这轮趋势,英伟达当属最大幕后赢家。
但与此同时,摩尔定律式微也是事实,单纯堆硬件已经无法满足当下算力需求,由此这也推动了算力行业迎来更新一轮机遇和变革。可以看到,近两年并行计算等加速方案愈发火热,这就是已经发生的变化。
而ChatGPT的火热,无疑加速了这一变革。在真实需求的推动下,算力领域硬件软件创新突破也会更快发生,模型会重新定义算法,算法会重新定义芯片。
300154瑞凌股份
参股墨芯人工智能科技(深圳)有限公司