百度沈抖:百舸4.0升级发布,模型训练有效时长达99.5%

2024-09-25 09:56:01 新浪网 

新浪科技讯 9月25日上午消息,今日举办的2024百度智能云大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖宣布百度百舸AI异构计算平台4.0升级发布,支持多芯混训、多芯适配,在万卡集群上实现了超过99.5%的有效训练时长。

在算力紧缺的当下,效率的提升将能够帮助企业有效提升算力使用率,进而降低成本。据介绍,为解决算力资源短缺的问题,百舸4.0对“多芯混训”能力进行了重点升级,实现了在万卡规模集群上95%的多芯混合训练效能,达到业务最领先水平。

在集群部署环节,升级后的百舸能够实现工具层面的秒级部署,将万卡集群运行准备时间从数周最快缩减至1小时,极大地提升部署效率,缩短业务上线周期。

针对大模型训练过程中故障频发的问题,百舸4.0全面升级了故障检测手段和自动容错机制,可以有效降低故障发生频次,大幅减少集群故障处置时间,在万卡集群上实现了超过99.5%的有效训练时长。

在模型推理上,最重要的是速度和成本。现在长文本推理逐渐成为主流,百舸4.0整体上做到了推理速度和成本优化,长文本推理效率提升了1倍以上。(文猛)

责任编辑:江钰涵

(责任编辑:张晓波 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读