财新传媒
位置:博客 > 半导体行业观察 > AI芯片,应该拼什么?

AI芯片,应该拼什么?

过去几年,围绕着人工智能兴起了一股席卷全球的AI芯片创业潮,也涌现了不少所谓的“英伟达杀手”的芯片初创企业。这背后的主要原因是因为英伟达凭借其GPU的领先优势,囊括了大家所关注的AI芯片(尤其是云端AI芯片)的大部分市场。

虽然这些“挑战者们”使尽了浑身解数,不过正如英伟达创始人黄仁勋在早前接受媒体采访时表示:“每年都有‘英伟达杀手’出现,但从没一个成功的。”这种情况再叠加不少人近年来围绕AI芯片落地难发出的广泛讨论,进而迫使大家对AI芯片的发力点作出深入思考。

针对这个问题,领先AI芯片初创企业Graphcore的大中华区总裁兼全球首席营收官卢涛在日前接受半导体行业观察等媒体采访的时候分享了他的观点。

 

AI芯片拼什么?
成立于2016年的Graphcore以其独具一格的IPU出道。按照该公司CEO Nigel Toon的分类,AI硬件分为非常简单的小型化加速产品、ASIC和可编程的处理器(Program Processor)三类。而公司推出的IPU则隶属于第三类。

根据Graphcore最新公布的数据,公司的最新IPU在性能上已经赶上甚至已经超越了竞争对手。这在半导体行业观察早前的报道《最新MLPerf训练1.1:Graphcore 的IPU AI性能优于英伟达GPU》中可以一窥详情。由此可见,如果单从硬件上来看,Graphcore有了叫板英伟达的充足底气。

但卢涛却表示:“一个芯片公司,尤其做计算类的芯片,生态很重要。”他进一步指出,AI计算和传统CPU市场有一些差别。

“在过去五年或十年里,CPU做的业务要么是Web服务,要么是数据库服务和存储服务,这些服务类型都是很明确的。但来到AI领域,想在生态方面全面追上,相对而言是困难且需要花费一定时间的,因为AI整体是高度动态的。”卢涛接着说。

我们也能从英伟达在生态上的表现去理解卢涛说这番话背后的逻辑。

在2007年年底,英伟达发布了其并行计算平台和编程模型CUDA。当时包括该公司的投资者在内的很多人都不明白黄仁勋这个决定背后的逻辑。然而在经过十几年的发展之后,CUDA已经成为了芯片巨头被难以取代的关键。

不少人工智能从业者曾经告诉笔者,对于他们来说,从GPU切换到其他硬件平台是相对简单的,但在GPU上,基于CUDA打造的各种库和模型,是他们很难离开GPU的原因。英伟达在去年11月举办的秋季GTC大会上也透露,截止到当时,NVIDIA开发者数量已接近300万,CUDA过去15年下载量达3000万次,一年下载量达到700万。

卢涛也表示,在AI计算领域,要说服客户使用“替代者”的方案,会是一个漫长的历程。

在他看来,客户不会特别关心产品的应用特性,而是关心产品的性能到底如何,是否有很强大的优势;之后,客户会关注软件的移植是否会很难,是否要花很长时间;即使AI模型能够移植,客户还会关心方案能不能大批量地部署和调度。这也是卢涛认为这会是一个漫长且复杂历程的原因。

然而我们也看到很多其他的机会,这主要是因为现在有很多创新和新的研究。“比如ViT,现在有一大类基于Transformer计算机视觉的模型,但Transformer本来是用来做自然语言处理的底层技术。”卢涛举例说。他同时指出,我们还需要做一些预判,才能有机会从追随领导者,到赶上领导者。“谁都不敢说自己的判断一定是准的,不过还是要勇于做这个决定,冒这个风险。”卢涛表示。

这种冒险精神,也正是Graphcore能在某些模型的支持做得比GPU好的原因。“预判+冒一点风险+一点运气,就可能在领域里相对具备领先性。”卢涛总结说。
 

Graphcore的“软硬兼施”

在分享了对AI芯片落地挑战的一些思考之后,卢涛又向笔者介绍了Graphcore是如何沿着上述思路构建公司产品核心竞争力的。关于硬件方面的进步,在前文谈到的那个文章中有了深刻的介绍,我们就不再赘述。

至于软件方面,Graphcore过去一年也做得愈加成熟了。 


如上图所示,据卢涛介绍,中间主要是Poplar SDK的部分:其中紫色的部分和硬件相关是驱动,粉色部分是Poplar的协议栈,浅粉色的部分则是Poplar和机器学习框架中间层的软件(当中包括XLA、图编译器和PopART等等)。在框架层面,Graphcore在去年也增加了一些“新面孔”。如PyTorch Lightning、百度飞桨和Hugging Face都是2021年发布的。

来到针对开发者的前端,Graphcore在去年引入了Jupyter Notebook,让程序员可以像使用记事本一样的使用习惯来使用公司的这个开发平台。

Graphcore还在AI应用以及包括可视化工具在内的开发者生态上投入,以帮助用户对应用进行可视化优化等。Graphcore同时还提供了系统级的软件,帮助开发者轻易实现从硬件管理到IPU虚拟化,再到系统级别集群和任务的调度。

除此以外,Graphcore在2021年还拓展了包括Weights & Biases、Spell和Gradient在内的多个合作伙伴。

Graphcore在2021年投入还包括在部署层面的一些更新。首先,在他们的努力下,VMware的Project Radium将支持Graphcore IPU以作为其硬件分解倡议的一部分;其次,Docker、Kubernetes也支持IPU,这也是他们在2021年取得的进展。

“公司在2021年还新增了Atos、NEC、Supermicro和2CRSi四个合作伙伴,加上原有的戴尔和浪潮,我们现在有了六个OEM合作伙伴。”卢涛告诉记者。Graphcore在2021年还和DDN、Pure Storage、Vast Data和WekaIO等国际上比较主流的商用存储设备商建立了合作。基于这些软硬件取得的进展,Graphcore在2021年还和多家企业拓展了合作。如:和安捷中科合作,利用IPU进行气象预测、精准灌溉、防灾减灾等等;和巴黎大学在宇宙学应用方面的一些合作;和深势科技合作完成分子动力学模拟软件DeePMD-kit向IPU硬件的迁移,探索基于分子动力学模拟的科学计算、药物设计、材料设计和新型能源等场景;和欧洲中期天气预报中心合作进行一些天气预测方面的应用;在金融保险方面,牛津-英仕曼用IPU进行股价预测,Tractable使用IPU加速事故和灾害恢复;在电信方面,和韩国电信合作发布了IPU云;关于城市环境可持续发展,和升哲科技发布了基于IPU的合作,进行城市相关可持续发展方面的应用;在医疗、生命科学方面,和斯坦福大学医学院合作,使用IPU以“医疗+隐私计算”为核心方向进行了一些研究和探索。

“2022年,我们将和国内公有云厂商合作进行一些IPU产品的发布,也会进行一些新硬件产品的发布。我们也会关注自动驾驶方向。”卢涛透露。

未来竞争更激烈虽然Graphcore在过去一年里取得了不小的成就,但正如卢涛所说,公司依然面临着不小的挑战。他举例说道,公司在生态和软件方面也做了很多工作,减少降低客户的迁移工作,差距也的确正在缩小。但有用户想在不修改代码的情况下进行迁移,这就使得相关的挑战会一直存在。

而在笔者看来,这并不仅仅是Graphcore,而是整个AI芯片领域新进者共同面对的难题。从卢涛的介绍我们可以看到,对于Graphcore而言,他们正处于一个相对领先的位置。

卢涛表示,打比喻今天的巨头在珠穆朗玛峰上,那么下面有七个台阶:第一个台阶是在组建团队的;第二个台阶是在宣讲理念的;第三个台阶是有芯片的;第四个台阶是有芯片且能够给客户送样品做测试的;第五个台阶是有产品有落地;第六个台阶是有产品,有很多落地的;第七个台阶是有很大的市场份额。

“我认为我们目前处在第五至第六的阶段。”卢涛说。在卢涛看来,虽然竞争了多年,但这种激烈的竞争现状,在今年将会持续。他表示,因为不同公司策略有所不同,因此从2022年开始,有不少企业走上不同的路径。这也许就是他看到竞争还将继续的原因。

对于Graphcore来说,为了继续往巅峰上爬,公司更新了经营策略:首先要做的就是要规划好产品路标,做前沿性的研究;紧接着就是做好产品;之后再关注营收。“按照优先级先后排序我们的工作目标,可以分为‘有人用我的产品’、‘有人用我的产品服务他的业务’,之后才轮到业绩和利润。”卢涛告诉记者。

“过往,大家对Graphcore的传统认知是针对目前市场霸主的挑战者。但在2022年,我们希望转变大家的这一认知,在性能、创新、TCO和软件易用性等多个维度建立起自己的领导力。”卢涛最后说。

 



推荐 0