业界首个128GB超大显存GPU 解锁千亿大模型部署

近日，世界人工智能大会在上海开幕。海飞科C10-S1X计算加速卡凭借卓越的高性能和高性价比，成功入围2023 SAIL TOP30榜单。同时，海飞科在会上展示了C10、高效部署、OPT等模型解决方案，充分展示了128GB超大显存GPU实现单卡和分布式多卡部署的领先性和创新性。 1000亿个大模型。

业界首款128GB超大显存GPU轻松解锁千亿级大模型部署

几个月前，一路狂飙引发了AI模型参数向百亿甚至千亿的演进，这对模型推理部署的算力提出了更高的要求。然而高性能GPU价格昂贵且存在技术壁垒，限制了AI模型的大规模部署。

面对AI大模型部署的多重挑战，海飞科基于高达128GB超大显存的C10通用GPU，与自有软件平台高效配合，实现算力与性能的优化平衡。存储容量，为大型AI模型的部署提供通用、敏捷、经济高效的能力。的解决方案。其中C10拥有128GB大显存，高效支持大批量推理，实现单卡千亿参数级模型的部署，为用户提供高性价比、高能耗比的算力；多卡分布式可部署超大型模型，通过灵活的分割满足用户低延迟、高吞吐量的多任务处理需求，可应用于自然语言、图像、人工智能的视频和音频。

C10是海飞科第一代通用GPU产品。依托通用并行计算架构、指令集等多项原创技术，兼容主流CUDA生态，具有良好的通用编程能力和优异的性价比计算能力，解决了GPU通用性和通用性的双重问题。成本高的问题可以保留用户现有的开发成果进行低成本迁移。此外，海飞自主研发了通用编程模型和完整的软件工具链，提供了语言层、算子层、模型层的通用开发接口，大大降低了开发门槛和难度，提高了开发者工作效率，更好地满足AI大模型的部署和开发需求。

建立通用并行计算体系，加速通用GPU大规模落地

面向AI 2.0，海飞自主研发通用并行计算架构，打造统一核心的产品体系，打造通用软件开发生态，为各行业用户提供高性能、低时延、低能耗、高性价比的算力服务，支持AI推理与训练、科学计算、图形渲染等应用场景。

海飞科成功推出第一代C10通用GPU芯片，C10-S1X和C10-S2X两款计算加速卡，支持多卡分布式部署，用户可根据吞吐量、延迟、并发等需求灵活配置。算力规模、性能、密度带来质的提升。值得一提的是，在权威机构的综合评测中，C10的性能已经达到市场主流产品。在处理张量数据类型的计算任务时，算力的有效利用率明显超出，更加接近理论最大算力。验证了C10能够为行业提供强大的算力。

遵循开发者视角是海飞科软件平台的研发理念，打造AI应用通用并行编程范式，提供高级语言编译器、AI图编译器、支持CUDA C等高级编程语言帮助开发人员提高工作效率。该软件平台可以对C10 GPU的算力进行优化，可以最大限度地释放GPU算力，为AI 2.0产业打下坚实的算力基础。

作为建立通用并行计算系统的实践者，海飞科技加强与领先的服务器厂商、云服务厂商、算法厂商的合作，打造开放、包容、共赢的产业生态，共同推动大数据产业的发展。通用 GPU 的规模实施。

本文为原创文章。若转载请注明出处：业界首款128GB超大显存GPU解锁千亿级大模型部署

真·中关村在线近日，世界人工智能大会在上海开幕。海飞科C10-S1X计算加速卡凭借卓越的高性能和高性价比，成功入围2023 SAIL TOP30榜单。同时，海飞科在会上展示了C10、高效部署、OPT等型号解决方案，充分体现了128GB大显存...