更新时间:2021-10-12 19:37:56
大家好,我是本栏目的编辑郝帅。现在我给大家解释一下上面的问题。麻省理工学院研究人员开发的一个新系统自动“学习”如何在成千上万台服务器上安排数据处理操作——这项任务传统上用于不精确和人工设计的算法。这样做可以帮助当今耗电的数据中心更高效地运行。
一个数据中心可以包含数万台服务器,这些服务器不断运行开发人员和用户的数据处理任务。集群调度算法在服务器之间实时分配传入任务,有效利用所有可用的计算资源,快速完成工作。
然而,传统上,人类根据一些基本准则(“策略”)和各种权衡来微调这些调度算法。例如,他们可以编写算法来快速完成某些任务,或者在任务之间平均分配资源。但是工作负载——也就是综合任务的组合——有各种大小。因此,人们几乎不可能针对特定的工作负载优化他们的调度算法,因此他们往往无法实现真正的效率潜力。
麻省理工学院的研究人员将所有手动代码卸载到机器上。在SIGCOMM上发表的一篇论文中,他们描述了一个系统,该系统使用“强化学习”(RL),一种反复试验的机器学习技术,来定制特定服务器集群中特定工作负载的调度决策。
因此,他们构建了一种新的RL技术,可以训练复杂的工作负载。在培训过程中,系统尝试了多种可能的方法来将传入的工作负载分布在服务器上,最终在使用计算资源和快速处理速度之间找到了最佳折衷。除了简单的指示,如“尽量减少工作完成时间”,不需要人工干预。
与最好的手写调度算法相比,研究者的系统可以在高流量时间内快速完成约20%到30%的工作,速度提高了一倍。然而,在大多数情况下,系统将学习如何有效地压缩工作量以减少浪费。结果表明,该系统可以使数据中心使用更少的资源,以更高的速度处理相同的工作负载。
电子工程与计算机科学系博士生毛洪子说:“如果你有办法用机器进行实验和出错,他们可以尝试不同的方法来安排工作,并自动找出哪种策略比其他策略更好。(EECS).“这可以自动提高系统性能。利用率的任何微小提高,甚至1%,都可以为数据中心节省数百万美元和大量能源。”
“制定日程安排决策不是万能药,”EECS教授、《CSAIL》的合著者穆罕默德阿里扎德补充道。“在现有系统中,这些都是硬编码参数,您必须提前决定。我们的系统学会根据数据中心和工作负载调整其规划策略特征。”