回复IT干货铺:不过门槛有点高,小团队可能用起来有难度
下载贤集网APP入驻自媒体
4月18日,字节跳动技术团队宣布开源Godel - Rescheduler,这是适用于云原生系统的全局最优重调度框架。它基于全局最优调度策略,能识别集群中的异常节点和任务,智能推荐任务位置,通过图算法生成迁移步骤,确保集群稳定性,实现全局最优调度。 该框架由Policy Manager和Movement Manager两个核心模块组成,前者输出重调度决策,后者拆解并执行决策,使集群向全局最优状态发展。字节跳动已将其应用于多个内部项目,支持合并部署、负载均衡、碎片整理等重调度策略协同工作。实际应用中,它帮助数万卡GPU集群将碎片率控制在5%以下,大规模混合部署集群中热点节点比例控制在0.1%以下。