直击WAIC2023| 壁仞科技合伙人梁刚：大模型训练不仅靠芯片算力，软件生态建设更重要

2023-07-09 09:30:15 清一色财经

《科创板日报》7月9日讯千亿、万亿大模型的底座是芯片和算力，但大模型的训练又不仅是芯片算力。

(资料图)

7月7日，在2023世界人工智能大会（WAIC）启明创投论坛“生成式AI与大模型：变革与创新”上，作为通用计算体系的开发原创性公司，壁仞科技合伙人梁刚博士分享了他对大模型和算力的理解。

加入壁仞科技前，梁刚博士是业内资深大咖。他是范德堡大学电子工程学博士、西安交大无线电技术学士，在英特尔、Marvell，AMD等有过近20年工作经验，主要是从事软件方面的研发和管理。在这20多年中，梁刚博士管理过上千人的工程团队，成功推出了数十款芯片的研发和量产。在过去8年，梁刚博士是麦肯锡资深顾问，从事半导体和软件方面的咨询。

面对目前的算力需求，多数公司使用英伟达芯片，壁仞科技作为国内自研的GPU公司，过去一年已推出BR10x芯片，并且在大模型推理和训练中逐渐起到作用。

梁刚博士表示，首先是从算力和性能上看，BR10x这款芯片能够支持BF16，算力达到512 TFLOPS，这在业界是相当领先的。其次在训推一体方面，BR10x支持各种数据精度，比如TF32，BF6， INT，其中INT8算力达1024 TOPS。第三是带宽，自主研发的BLINK壁砺能够支持八卡互联，加上IB网卡，壁仞的产品可以支持多机多卡的大环境。

当然，身为工程师的梁刚博士也明白，光有算力还不行，助力大模型训练需要落地，走进市场。

为此，梁刚博士坦言：想让一款芯片落地，光靠算力没有用。过去一段时间，壁仞已做了很多工作：

首先壁仞的孵化软件生态开始逐渐形成。6月30号，壁仞发布软件正式版本(release)；从模型上，壁仞跑通GPT-2、 Stable Diffusion、LLaMa、百度文心等。从框架层面，壁仞已支持了DeepSpeed, Hugging Face和百度文心等框架。

其次，用数据和模型切分。近期，壁仞也已经实现了TP、 PP、 DeepSpeed ZeRo`数据并行，以及Recompute、 Offload 等的策略和算法。

第三，分布式训练。大模型训练需要很多机器，通讯消耗非常高，所以需要有策略来充分发挥BLINK优势。

此外，梁刚博士提醒说，不管有再好的机器和算力，都会出现个别板卡出现问题的情况。在这一方面，壁仞在做压力测试以及角落案例(corner cases)；另一方面，软件上也在开发容错机制，提升系统的稳定性。

当然，最重要是客户的性价比。在梁刚博士看来，对硬件公司来说，除了芯片算力，还要在训练上做到充分优化，尤其是大模型不仅单靠算力优化，还要从分布式角度做调整，最终在训练上优化，帮助客户。”

放眼到整个生态，梁刚博士深知，上面说的硬件算力、优化是一方面，最重要的是生态的建设。”比如英伟达，旗下的CUDA平台助力英伟达成长为 AI 产业龙头，CUDA平台能便于让更多的技术人员参与开发，为英伟达构建强大生态护城河壁垒。 “

对壁仞来说，梁刚博士认为，打好基础是第一步。过去的几年壁仞证明了自己，壁仞是全新的自研架构，第一个芯片到了实验室就点亮了。 A0芯片就能量产了，这是十分不容易的。第二是保持相应合作。壁仞必须要跟国内的合作伙伴和客户保持密切合作，让产品不断迭代、不断更新，把事情做出来靠产品说话。第三，大模型对网络需求非常高，壁仞会跟网卡、存储商保持合作。

尽管目前国内软件生态与国外相比还有很大差距，但市场一定要学会包容。从业近30年的梁刚博士认为，半导体行业没有捷径和弯道可做，过程中必须踏踏实实做好每一件事。。

而在构建国内GPGPU生态上，梁刚博士认为，硬件设计的周期是1-2年；软件方面会更长，由于大模型应用带来的紧迫感，相信这一周期会比过去短一些。

标签：