工作站自上世纪诞生以来,就成为了高性能生产力工具的主力产品,而且能够很好地参与到用户的日常工作、生产和学习当中。但是随着时间推移,当前工作站整体业务情况已经发生了很大变化,尤其是在渠道里的表现,已经与往日大为不同。这主要表现在五个方面:
第一,工作站市场容量稳定并增长迅速。工作站的需求一直在稳定增长,抛开疫情影响, IDC给出的预测可以达到年增长9%-10%。2023年MNC加上渠道客户方案的整体容量在120万台,其中渠道占1/4,并且增幅大于平均涨幅。
第二,渠道产品生产日趋成熟。上游和周边厂商的工作站业务的策略调整和定制化需求增多,渠道的参与度增强,周边产品生态已经成熟。比如说硬件上的主板、散热、机箱等, 以及本土化应用软件的普及等。
第三,政策对渠道方案友好。目前在相关政策的驱动下,国产品牌呈现明显的增长趋势,加持渠道工作站的业务。
第四,产品方案多种多样,加速渠道业务成长。定制化、云化、AI化等等都是近来的趋势,而且形态也由最初的卡式向多形态发展,比如说机架式、便携式等。
第五,热点应用加速渠道方案落地。热点应用的落地催生了各种各样的方案,尤其是去年下半年,AIGC在各个场景下的表现,给了工作站更为广阔的空间。
而在工作站领域,英特尔为其打造的至强W处理器平台,可以说是目前单路最强核芯,尤其是在AI以及AIGC的应用领域,至强W可以说是助力整个行业快速发展的基石。
当前,英特尔在这一领域已经汇聚了近50家核心企业。其中不仅包括像昱格电子这样的OEM,同时也包括像智微智能这样既是OEM又是ODM的企业,当然也有像璇米科技这样方案提供商,以及众多ISV合作伙伴。
·至强W为何是英特尔单路最强芯?
那么问题来了,至强W为何是英特尔单路最强芯?
对此,英特尔工作站品类产品经理葛林给出了答案。
至强W处理器(单路)与至强处理器(多路)的区别就是把UPI模块换成了PCIe模块。UPI 可以让两颗或者是多颗CPU构建双路甚至多路协同工作状态。而至强W聚焦于单路,因此英特尔将UPI换成了PCIe,而PCIe能够充分拓展通路,以应付算力均衡的需求。
从技术层面来看,至强W每颗核心与同级别至强处理器去比的话主频更高,尤其是在拥有相同核心数、相同加速器,且具备AI相关指令集、加速器的情况下,至强W具备更高主频和PCIe带来的更强扩展能力,从而带来了更加强劲的平台级计算能力,这是至强W被称为英特尔单路最强芯的根本原因。
此外,至强W对于企业用户而言有着更好的TCO(总体拥有成本),能够单独运行,扩展能力强,且算力补偿方面英特尔也做了优化,因此可以应对客户多样化的需求,为客户提供更好的经济性。
·至强W为何能玩转AIGC?
时下,AIGC应用已经成为工作站设备的典型应用场景。至强W对于“玩转AIGC”来说,是非常合适的硬件平台。
当前,AIGC的业务逻辑主要包含三类:
其一是像OpenAI,Stable Diffusion,Midjourney等等的大模型提供商;
其二是AIGC的使用者或消费者。
其三只专业服务提供商、运营商,如建筑设计、工业设计、加工等领域。
在三大类业务逻辑中,除了大模型提供商之外,另外两大类用户其实对算力的要求并不是那么极致,因此这类用户往往会选择经济性更好的单路至强W设备来获得更好的收益。
葛林介绍说,“从产品端,英特尔通过建立TSS部门来做相关验证。并根据验证结果对AIGC工作站和服务器提出了六个方向上的建议。”这些建议主要包括:
第一,核心。英特尔的最强芯不只是32核心,但因为核心再继续堆叠的情况下所带来的上升空间不大,所以“甜蜜值”是在16核到32核之间。
第二,频率的关系。在满足大核的核心数条件下,频率肯定是线性关系的,频率越高,效率越高。
第三,AMX加速器。根据英特尔实验室数据,有无AMX加速器的情况下,效率差距会达到4倍,可见其非常关键。
第四,内存。英特尔建议4通道起步,因为4通道至少可以支持到2T,应对各种各样参数的大模型时,如7B、13B甚至几十亿参数大模型时,大内存可以快速支持大模型数据的导入和导出。
第五,RDIMM DDR5 ECC内存的稳定支持。ECC内存自带纠错,其优势就在于稳定,联系运行数小时、数天、甚至更长时间,ECC内存都能保证稳定不宕机。
第六,PCIe通道数,这是支持到更多的加速计算卡工作的根本。比如一个加速计算卡需要占16x的通道,而加速计算卡堆叠越多性能越高,所带来的成本也越高。至强W平台的TCO就体现在这里,它能够提供足够的PCIe通道支持,可以支持4-6块加速卡,对于不需要超高算力客户来说,满足算力需求的同时也更加经济实惠。
·国内AIGC的主要挑战
AIGC是当前最为火爆的行业,那么AIGC到底能给人们带来什么?有哪些典型场景?在做这些场景的时候需要怎样的算力架构?英特尔中国AI架构师赵朝卿分享了自己的观点。
首先从技术脉络和算法来说,AI发展到今天经历了机器学习、深度学习阶段,而AIGC无疑是建立在这两个阶段之上,实现大众化应用的新阶段。因此,各类大模型数据的参数量一直 上升,并且达到10亿级甚至是更多。此时,更加庞大的算力需求接踵而至。
AIGC技术成熟度是从语音合成、识别开始的,这个在十年前没有解决的问题,现在已经解决掉了,再往后则是自然语言处理。而现在,随着ChatGPT等大语言模型的发布,文本类的生成也向前跨了一大步,而视觉、语音就要把各种模态整合到一起从而形成多模态。
赵朝卿认为,目前国内AIGC的主要挑战包含三个方面:
其一,构建一个大语言模型去做预训练,所谓的预训练就是从头训练所有参数。比如微软的模型都是千亿级别的,而训练这种模型一般都需要千卡、万卡,国内没有几家可以这么做,训练一个模型需要巨大的成本支出。
其二,对于国内来说,可以利用开源的预训练模型做行业的微调,但是哪怕是微调,我们依然需要大量的算力,一方面需要很多显卡来完成训练,另一方面需要花费大量时间去做训练。
其三,在部署阶段仍然需要算力。比如一个7B的大语言入门级模型,起码要有一张16G显存的显卡才能放进去,而且这是在做完量化的情况下。所以整体来说AIGC的算力要求很高,同时在效率和时间方面也都有着非比寻常的挑战。
·至强W满足算力均衡需求成本更加可控
赵朝卿还分享了三种AIGC应用场景,来说明算力需求的庞大。
首先是平面设计。原来一个设计师设计一个布料花色需要两周时间,还要不停去调整色彩方案和呈现。现在通过AIGC可以快速生成很多张不同配色的方案,时间可以压缩到2天左右。节省了大量人力、时间成本,而转化成算力成本, 需要很大的算力支撑。
其次是影视制作,比如OpenAI Sora的出现,它可以随便生成一个视频来使用,但对于影视来说不够专业,依然需要更加精细地打磨。比如《流浪地球》这部电影中,某一帧图像渲染时间达到了99个小时,算力消耗巨大。因此行业需要一个平台,能够把算力扩充起来,还要有图形化的渲染和编辑能力。
再者就是时下火爆的数字人。如数字主播或直播带货,它可以借助AI针对不同地区生成不同的语言。比如虽然说的是普通话,但不同地区用户听到的可能是阿拉伯语或者是英语,且还可以针对不同地区定制不同的数字人形象,这些都需要算力支持。
这三个典型应用场景都需要高性能的计算以及图形处理能力这样的专业需求。今年,发展新质生产力被写进政府工作报告中,所有企业都在做“AI+”的融合,因此要提供高性能计算和图形处理能力,CPU就需要具备高主频、多核心、高密度低异构的可扩展性。一张显卡不能只配一个核,而是要达到算力均衡,也就是CPU的算力需要与GPU匹配。而至强W平台高达112路线程,可以支持到6卡,内存支持DDR5 ECC高速内存,容量可以支持到4T,且整个平台比双路8卡成本相对更加可控,从而能够更好地满足客户对于更多AI算力场景的需求。
·至强W的实际解决方案分享
在近期举办的“英特尔单路最强‘芯’,助力玩转AIGC”活动上,璇米科技、昱格电子以及智微智能三家合作伙伴分享了至强W的应用案例,展现了“算力均衡”的优势。
璇米科技总经理李洪刚分享了其在3D体育赛事重建方面的经验。从北京冬奥会到CBA等大型赛事,璇米科技是唯一一家在比赛现场就能够实现赛事数据大量采集的公司。利用专业相机、高清摄影机、甚至手机采集数据,并将素材交付给由山景电子打造的至强W工作站,再借助二三十个核心以及高达4.8GHz频率的至强W平台,可以迅速实现由2D检测到3D重建的工作负载。
李洪刚说,“一个至强W可以支持16x的PCIe,也就是说可以带4-6块显卡。在实际使用中,如果可以带4块显卡,再加上2到3台这样的机器,就能够实时处理一场篮球比赛。现在与AIGC相结合,从2D图像到3D重建的过程中加入AIGC。也就是说,首先从图像中拿到2D的骨骼,这一步被称作检测。检测之后将2D重建为3D的人物形象和骨骼的过程,在引入AIGC之后,技术的跨越式发展进一步加速。”
昱格电子产品经理张康则分享了至强W在影视工作流方面的应用。从原来的720p、1080p到现在的4K 60帧、120帧,整个工作流中的效率如何解决,包括用手机或用笔记本在AIGC的情况下如何提高工作效率,是昱格电子需要思考的问题,并给出相应的解决方案。
昱格电子主要采用虚拟化的方式,因为虚拟化可以合理地分配至强W这样高主频多核心的处理器,做到算力均衡。如分8个核心给用户做剪辑,再分8个核心给用户做渲染。这样带来的好处是整体效率非常高,同时整个方案性价比也会非常高。
张康介绍说,“至强W系列在PCIe通道里额外增加了直连的PCIe,和双路至强相比,在全闪NAS中,我们也是用至强W的产品去做的。而且在我们的测试过程当中,同样的核心,相比双路至强,单路至强W速度会快一倍。做影视工作流的都知道,在4K或者是8K剪辑的时候,整个全闪的速度快一倍是非常恐怖的。”
其实不仅是影视后期,在诸如工程设计、人工智能开发中,都可以用到昱格电子的虚拟化系统。在昱格电子这套虚拟化系统中,通过远程访问这些高性能算力的同时,昱格电子的备份系统、永恒操作系统,在NAS层面可以给客户提供非常好的数据和算力支撑。在永恒操作系统当中还可以给客户提供非常强的多模型数据支撑,这就形成了昱格电子的高性能AIGC云工作站方案。此外,它不仅带来的是可靠性和算力的提升,还有数据安全的提升。
智微智能架构工程师王海利分享了智微智能基于单路最强芯至强W的整体硬件解决方案。
智微智能目前在多个细分行业做到了行业第一,比如消费电子、教育、零售等,并与国内近百家头部客户有深度合作。公司拥有500名研发人员,主要基于英特尔平台做各种各样的硬件开发。同时智微智能也有自主的工厂,是一家能为各行各业提供硬件解决方案的公司。
王海利说,“至强W在AIGC当中有多样的应用,大家也可以看到AIGC对算力的需求是很大的。算力需求主要会涉及几个方面,一是处理器核数的需求, 二是我们对多算力的需求。 我们的平台支持W34系列,最大可以支持60个核心。W34系列其实还有一个最主要的特点就是可以做超频。比如56核112线程的W9-3495X处理器,可通过睿频加速Max技术3.0实现最大睿频4.8GHz 。我们在机器上增加了硬件的超频系列,只要我们能解决散热问题,频率就可以不断提升,功耗释放可以达到600W左右。另外是支持DDR内存,目前我们支持8条内存条,全部都是主通道,最大容量支持到2T。刚刚英特尔专家也说了,在这个平台上支持ECC内存纠错功能。除此之外,我们还支持很多的功能,比如说RAS、内存加密技术等,这些技术都是为了提高我们整个的数据可靠性、稳定性等方面。另外,现场展示的这套方案支持12个硬盘盘位,它可以支持SATA 、SAS 、SSD相应的设备,包括U.2,为企业提供各种各样可配置的解决方案。”
基于至强W平台打造的智微服务器具备研制一体化,性能强劲;支持图形加速,深度学习;可靠、可管理、更安全以及灵活扩展特性,可轻松满足客户对计算的不同要求。
其实除了第四代至强W之外,英特尔将在今年8月份推出的第五代至强上继续强化AI计算支持。
·结语
当前,计算呈现出越来越专注化、针对化、云化、AI化的新特点。基于这样的背景,对于算力平台的要求已经由原来的总成开始往分散性组件去发展。根据IDC预测,单路计算规模已经占到了10%,这是总成化拆解的大趋势。
同时,CPU与GPU的算力均衡,以及相应平台的经济性也在AI时代被凸显出来。面对不同类型的用户提供不同类型的解决方案,而不是一股脑去通过多路方案解决问题,已经成为了市场发展的必然。至强W作为最强单路核芯,虽然不太擅长面对大模型训练需求,但是其强大的扩展性和自身的性能实力,却可以在AIGC消费端、运营商、服务商解决方案应用中提供足够可靠的算力支持。相比双路或多路的解决方案,拥有更好的TCO,同时也能与双路和多路方案一起,满足不同用户的多元化需求,并确保算力均衡,这是时代发展的必然,也是用户需求转变之后的必然。