3月19日,英特尔宣布将与高性能厂商Cray在美国能源部下属的阿贡国家实验室建造第一台每秒可进行百亿亿次浮点运算(exaflop)的超级计算机,专门为传统高性能计算和人工智能(AI)设计。
而就在一周前的3月12日,英伟达宣布69亿美元收购以色列公司Mellanox,后者是一家以高性能计算和网络技术而闻名的芯片制造商,英伟达通过此次收购意在抢占数据中心。
不仅英特尔、英伟达这些科技巨头在布局超算,人工智能创企也纷纷打造超算。商汤超算平台的计算集群已搭载超过14000块GPU,峰值计算达16亿亿次/秒,而国家“太湖之光”的峰值计算仅为12.5亿亿次/秒。
去年旷视宣布完成C轮融资时,创始人印奇也对媒体表示:旷视已经在中国好几个地方建了非常大的超算平台,未来的算力还需要更多。算力就像当年的存储一样,无论扩展得多快,都会被消耗掉,需要不断去投入。
其实,这些人工智能公司完全可以采用云服务的模式,比如租赁阿里云、腾讯云、AWS、中科曙光等共有云平台的高性能计算服务。那么它们为何纷纷选择自建超算呢?
算法迭代快
计算力和算法是一组最佳CP,如果计算力和算法均是自己研发的,就会产生1+1大于2的“化学反应”。因为原创算法和算力两者采用统一的接口时,更易于互相匹配和协调。且数据的收集、标注、模型建立、模型训练到输出SDK的每一个环节,都可以做到标准化和自动化,整个链条就会跑得更快,算法迭代速度更快。而公有云的超算很难满足每个企业算法的匹配。
尤其在面临新需求下的情况,比如需要1000个GPU卡联合训练,阿里云、腾讯云等这些云平台均没有此类服务,那么新需求就没法进行下去。从长远来看,自建超算更利于探索新业务。
前不久,央视315爆出AI客服一年打40多亿个骚扰电话,以及犯罪分子通过免费公共WIFI窃取用户消费信息的现象引起热议,其背后正是我国数据安全保护薄弱的影射。如果通过公有云平台做模型训练,理论上云平台都可以看到使用方数据。一旦数据被泄露,对使用方公司将是不可逆的打击。
眼下,5G商用逐步临近,5G 时代生产方式将发生革命性的变化,很多终端数据处理都可在云端跑。这也是英特尔、英伟达等巨头企业近期极力打造超算平台的原因之一,因为超算是5G时代巨头争霸不可忽视的一面。
冰冻三尺非一日之寒,构建超算不单是将几千或者几万个GPU堆叠起来,还需要一套强大的“管理系统”――就像微软Windows操作系统。例如阿里耗费多年打造出“盘古分布式系统”,才成为阿里云的Windows。所以,对于人工智能公司,提前积累超算的经验十分必要。
从资本角度来看,在5G大爆发的行业环境下,超算的价值愈加凸显,自建超算有更大的想象空间。在满足自身计算需求情况下,还可以租赁出去把服务卖给中小企业,或许还能盈利,也是一种商业模式。
价格便宜10倍
以阿里云平台为例,笔者粗略算了一笔账:
如果在阿里云平台选择一块卡,包括8个Intel Platinum 8163处理器和1个NVIDIA V100,服务价格为每7620元/月,即9.144万元/年。
一个以上配置的卡成本多少呢?笔者查阅发现,Intel Platinum 8163处理器的价格为1.5万元/个,NVIDIA V100的价格为7.88万元/个。所以1.5W*8+7.88*1=19.88万元,再加上服务器(包括主板等硬件)0.5万元左右,成本共计20.38万元。
对比发现,选择阿里云包月服务所需要的钱大约两年就可以买一张卡,但一张卡的寿命远大于两年,一般至少5-10年。显然,自己组装卡是更省钱的。
一位MISSION.ORG的作者Jeff Chen也对比过自建GPU计算机和租赁AWS云服务,竟然便宜10倍!
他组装一台GPU计算机,花了3千美元,其配置包括一个1080Ti GPU(你也可以用新的2080Ti来学习机器,只要再多花500美元),一个12核CPU,64GB RAM和1TB M.2 SSD。再加三个GPU,总共四个GPU。
我们非常保守地假设,因为GPU迭代非常快,一块用于深度学习的GPU在三年内价值变成0。如下表所示,如果用它超过1年,把电费算在内也会便宜10倍,如果把亚马逊一次购买多年的折扣算在内,1年大概会便宜6倍,3年便宜4倍。4个GPU便宜21倍。
自建计算机和从AWS租赁的费用比较。1个GPU版本便宜4-10倍,4个GPU版本便宜9-21倍,具体取决于利用率。AWS定价包括全年和3年租赁的折扣(35%,60%)。假设功耗为0.20美元/kWh,1台GPU机器消耗1千瓦/小时,4台GPU机器消耗2千瓦/小时。折旧保守估计为3年内的线性损耗。每个GPU 700美元。
如果你想把2080ti用于你的深度学习计算机,会多出500美元,而且对于1 GPU的机器来说,仍然是4-9倍的便宜。
造成这种巨大成本差异的原因是亚马逊Web服务EC2(或谷歌云或Microsoft Azure)的GPU价格为3美元/小时或约2100美元/月。即使当你关闭你的机器时,你仍然需要以每月每GB 0.10美元的价格为机器支付存储费用。
对于一台3千美元的GPU机器学习计算机(1千瓦/小时),如果你经常使用,将在2个月内收支平衡。更不用说你的电脑还归你所有,而且在两个月内它没有贬值多少。同样,4 GPU版本(2千瓦/小时)的更为有利,因为你将在不到1个月内实现收支平衡。(假设电力成本为0.20美元/kWh)
而且GPU性能与AWS相当。与使用下一代Volta技术的Nvidia v100 GPU相比,你的700美元Nvidia 1080 ti的运行速度为其90%。这是因为存在IO,所以即使V100理论上速度可能快1.5?C2倍,IO在实践中也会减慢速度。由于您使用的是M.2SSD,IO在您自己的计算机上运行得很快。
结语
从1块卡到几万卡还需要运维费用,以及人才成本,但从长远看,自建超算更有发展潜力,也是AI公司做大的必经之路。
当然,选择共有云平台还是自建超算也要根据自身公司体量,毕竟打造超算前期投入较大。
人工智能的核心业务壁垒和竞争力就是算法中的业务逻辑,还有就是数据。如果核心业务已经稳健,数据和算法需要信息安全保护,则需要从公有云平台迁移至自建超算。
如果只是小范围验证业务模式,为了降低成本,可以借助公有云平台快速部署和按需租用的优势,如果资金和时间都充裕,可以直接自建超算。