华尔街的秘密被用来降低云基础设施的成本

时间：2021-12-06 19:58:03来源：

麻省理工学院的研究人员开发了一种“风险感知”模型，可以提高整个美国云计算网络的性能。图片

“风险感知”流量工程可以帮助Microsoft，Amazon和Google等服务提供商更好地利用网络基础架构。

股票市场投资者通常依赖于财务风险理论，这些理论可帮助他们最大化回报，同时将由于市场波动而造成的财务损失降至最低。这些理论可帮助投资者保持平衡的投资组合，以确保他们永远不会损失超过自己愿意在任何特定时间参与的损失。

受这些理论的启发，麻省理工学院的研究人员与微软合作开发了一种“风险感知”数学模型，可以改善全球云计算网络的性能。值得注意的是，云基础架构非常昂贵，并且消耗了世界上大量的能源。

他们的模型考虑了全球数据中心之间链接的故障概率，类似于预测库存的波动性。然后，它运行优化引擎以通过最佳路径分配流量，以最大程度地减少损失，同时最大程度地提高网络的总体利用率。

该模型可以帮助主要的云服务提供商（例如Microsoft，Amazon和Google）更好地利用其基础架构。常规方法是保持链路空闲以处理由于链路故障而导致的意外流量转移，这会浪费能源，带宽和其他资源。另一方面，称为TeaVar的新模型可以保证在目标时间百分比内（例如99.9％），网络可以处理所有数据流量，因此无需保持任何链路空闲。在那0.01％的时间内，该模型还使数据降得尽可能低。

在基于实际数据的实验中，该模型支持的流量吞吐量是传统流量工程方法的三倍，同时保持了相同的高水平的网络可用性。描述模型和结果的论文将在本周的ACM SIGCOMM会议上发表。

共同作者，麻省理工学院电气工程与计算机科学系TIBCO职业发展助理教授，计算机研究人员Manya Ghobadi说，更好的网络利用率可以为服务提供商节省数百万美元，但好处将“滴灌”给消费者。科学与人工智能实验室（CSAIL）。

Ghobadi说：“拥有更多利用率高的基础架构不仅对云服务有益，而且对全世界也更好。”“公司不必购买太多基础设施即可向客户销售服务。此外，能够有效利用数据中心资源可以节省云基础架构的大量能源消耗。因此，同时为用户和环境都带来了好处。”

CSAIL的学生Jeremy Bogle和Nikhil Bhatia也与Ghobadi一同加入了论文； Microsoft研究部门的Ishai Menache和Nikolaj Bjorner；希伯来大学的Asaf Valadarsky和Michael Schapira。

在钱上

云服务提供商使用地下运行的光缆网络，连接不同城市的数据中心。为了路由流量，提供商依赖于“流量工程”（TE）软件，该软件可以最佳地分配所有网络路径上的数据带宽（一次可以传输的数据量）。

目标是确保全球用户获得最大的可用性。但这是一个挑战，当某些链路可能会意外中断时，这是由于光信号质量下降所致，该光信号质量是由于在施工期间出现故障或断线而造成的。为了保持对故障的鲁棒性，提供程序将许多链接保持在非常低的利用率，以等待吸收来自断开链接的全部数据负载。

因此，这是网络可用性和利用率之间的棘手折衷，这将实现更高的数据吞吐量。研究人员说，这就是传统TE方法失败的地方。他们根据各种因素找到最佳路径，但从未量化链接的可靠性。“他们不会说，‘此链接的正常运行可能性较高，所以这意味着您应该在这里发送更多的流量，”博格说。“网络中的大多数链接都处于低利用率状态，并且发送的流量不如发送的流量大。”

相反，研究人员设计了一个TE模型，使核心数学适应“有条件的风险价值”，这是一种量化平均金钱损失的风险评估指标。通过投资股票，如果您有一日99％的有条件价值的风险在50美元，那么当天那笔最坏情况的1％情景的预期损失为50美元。但是99％的时间，您会做得更好。该措施用于投资股票市场，这是很难预测的。

“但是数学实际上更适合我们的云基础架构设置，” Ghobadi说。“多数情况下，链路故障是由于设备的老化造成的，因此故障的概率不会随着时间的变化而变化很大。这意味着与股票市场相比，我们的概率更加可靠。”

风险意识模型

在网络中，数据带宽份额类似于已投入的“金钱”，而故障概率不同的网络设备就是“股票”，其价值变化的不确定性。研究人员使用基本公式设计了一个“风险感知”模型，该模型与财务模型一样，保证数据将在99.9％的时间内到达目的地，但在最坏情况下出现故障的情况下，将流量损失保持在最小的0.1％。这使云提供商可以调整可用性与利用之间的权衡。

研究人员统计地绘制了微软网络的三年网络信号强度，该网络将其数据中心连接到链路故障的概率分布上。输入是图形中的网络拓扑，其中数据的源-目标流通过线（链接）和节点（城市）连接，每个链接分配有带宽。

通过每15分钟检查一次每条链路的信号质量来获得故障概率。如果信号质量曾经下降到接收阈值以下，则他们认为这是链路故障。上面的任何内容均表示该链接已启动并正在运行。据此，该模型生成了每个链接打开或关闭的平均时间，并在每个15分钟的时间窗口为每个链接计算了故障概率或“风险”。根据这些数据，它可以预测风险链接在任何给定时间段内何时会失败。

研究人员在通过Google，IBM，ATT和其他遍布全球的网络通过网络发送的模拟流量上，对照其他TE软件对模型进行了测试。研究人员根据其发生的可能性创建了各种故障场景。然后，他们通过网络发送了模拟的和实际的数据需求，并提示他们的模型以开始分配带宽。

研究人员的模型使可靠的链接保持接近满负荷运行，同时使数据远离危险的链接。与传统方法相比，他们的模型通过网络运行的数据量是其三倍，同时仍确保所有数据都能到达目的地。该代码可在GitHub上免费获得。