通过人工智能提高Azure服务质量:AIOps

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:Mark Russinovich网络

小提示:您能找到这篇{通过人工智能提高Azure服务质量:AIOps}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的通过人工智能提高Azure服务质量:AIOps内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!

< ">“在大数据时代,从以Azure规模运行的云服务中收集的见解迅速超出了人类的注意力范围。根据收集到的大量数据,确定正确的步骤以维持最高的服务质量至关重要。在将此应用到Azure时,我们设想将AI注入我们的云平台和DevOps流程,成为AIOps,以使Azure平台变得更具自适应性,弹性和效率。AIOps还将支持我们的工程师更有效,及时地采取正确的措施,以继续提高服务质量并令我们的客户和合作伙伴满意。这篇文章继续了我们的“推进可靠性”系列重点活动正在不断改善Azure平台的可靠性。接下来的帖子是由负责这些工作的项目经理Jian Zhang撰写的,她分享了我们对AIOps的愿景,并重点介绍了AI注入领域,这些领域已经成为我们端到端云服务管理的一部分。”—Azure首席技术官Mark Russinovich

< font-size: 16px;">这篇文章包括首席数据科学家经理Yingnong Dang和Partner Group软件工程经理Murali Chintalapati的贡献。

< font-size: 16px;">正如Mark在启动“提高可靠性”时提到的那样博客系列,在Azure规模上构建和运行全球云基础架构是一项复杂的任务,包含数百个不断发展的服务组件,这些组件跨越160多个数据中心,遍及60多个区域。为了应对这一挑战,我们创建了一个AIOps团队来与Azure工程团队进行广泛的合作,并与Microsoft Research合作开发AI解决方案,以使云服务管理比以往任何时候都更加高效和可靠。我们将分享我们对将AI注入云平台和DevOps流程的重要性的看法。Gartner提到了与AIOps类似的东西(发音为“AI Ops”),这已成为我们内部使用的通用术语,尽管范围更大。今天的帖子仅仅是个开始,

< font-size: 16px;">为什么要使用AIOps?

< font-size: 16px;">云服务有两个独特的特征:

< font-size: 16px;">云平台和系统的规模和复杂性不断增加

< font-size: 16px;">客户,合作伙伴及其工作负载的不断变化的需求

< font-size: 16px;">为了在不断变化的状态下构建和运行可靠的云服务,并尽可能高效地进行操作,我们的云工程师(包括数千名Azure开发人员,运营工程师,客户支持工程师和程序经理)严重依赖数据做出决定并采取行动。此外,许多决策和行动需要作为我们的云服务或DevOps流程的组成部分自动执行。简化从数据到决策再到行动的路径包括识别数据中的模式,进行推理并基于历史数据进行预测,然后根据从所有基础数据中得出的见解建议甚至采取行动。



< font-size: 16px;">将AI注入云平台和DevOps–AI以客户,工程和服务为中心。

< font-size: 16px;">

< font-size: 16px;">图1.将AI注入云平台和DevOps。

< font-size: 16px;">AIOps愿景

< font-size: 16px;">AIOps已开始通过大规模改善服务质量和客户体验,同时通过智能工具提高工程师的生产力,推动持续的成本优化并最终提高平台本身的可靠性,性能和效率,来转变云业务。当我们投资于改进AIOps和相关技术时,我们看到这最终会以几种方式提供价值:



< font-size: 16px;">更高的服务质量和效率:< font-size: 16px;">云服务将具有内置的自我监视,自适应和自我修复功能,而只需很少的人工干预。由此类智能提供支持的平台级自动化将提高服务质量(包括可靠性,可用性和性能),并提高服务效率,以提供最佳的客户体验。

< font-size: 16px;">更高的DevOps生产率:< font-size: 16px;">凭借AI和ML的自动化功能,工程师从研究重复问题,手动操作和支持其服务的工作中解脱出来,而可以专注于解决新问题,构建新功能以及对工作有直接影响的工作客户和合作伙伴的经验。实际上,AIOps使开发人员和工程师具有洞察力,从而避免查看原始数据,从而提高了工程师的生产率。

< font-size: 16px;">更高的客户满意度:< font-size: 16px;">AIOps解决方案在使客户尽可能轻松地使用,维护和排除我们的云服务之上的工作负载方面发挥着至关重要的作用。我们努力使用AIOps更好地了解客户需求,在某些情况下,确定潜在的痛点并根据需要主动伸出援手。数据驱动的客户工作负载行为洞察力可能会在Microsoft或客户需要采取措施以防止出现问题或应用变通办法时进行标记。最终,目标是通过快速识别,缓解和解决问题来提高满意度。

< font-size: 16px;">我的同事Marcus Fontoura,Murali Chintalapati和Yingnong Dang在AAAI-20云智能研讨会上的第34届AI大会上分享了微软在此领域的愿景,投资和示例成就,以及第三十四届AAAI-20云智能研讨会AAAI人工智能会议。愿景是由Microsoft AIOps委员会跨云服务产品组(包括Azure,Microsoft 365,Bing和LinkedIn,以及Microsoft Research(MSR))创建的。在主题演讲中,我们共享了一些关键领域,在这些领域中,AIOps可以转变为构建和运行云系统,如下图所示。

< font-size: 16px;">

< font-size: 16px;">图2.用于云的人工智能:人工智能和人工智能服务平台。

< font-size: 16px;">人工智能

< font-size: 16px;">超越我们的愿景,我们希望首先简要概述构建AIOps解决方案的一般方法。这个领域中的解决方案总是从数据(系统,客户和流程的度量)开始,因为任何AIOps解决方案的关键都是提炼关于系统行为,客户行为以及DevOps工件和流程的见解。洞察力可能包括识别现在正在发生的问题(检测),为什么会发生(诊断),将来会发生什么(预测)以及如何改进(优化,调整和缓解)。此类见解应始终与业务指标(客户满意度,系统质量和DevOps生产力)相关联,并根据业务影响确定的优先级来推动行动。这些动作也将反馈到系统和过程中。此反馈可以是完全自动化的(注入到系统中),也可以是人为循环的(注入到DevOps流程中)。这种总体方法指导我们在三个方面构建AIOps解决方案。

< font-size: 16px;">

< font-size: 16px;">图3.AIOps方法:数据,见解和行动。

< font-size: 16px;">系统人工智能

< font-size: 16px;">今天,我们将介绍几种已经使用的AIOps解决方案,并在后台支持Azure。目标是使系统管理自动化以减少人为干预。结果,这有助于降低运营成本,提高系统效率并提高客户满意度。这些解决方案已经为Azure平台的可用性改进做出了重要贡献,尤其是对于Azure IaaS虚拟机(VM)。AIOps解决方案通过多种方式做出了贡献,包括通过硬件故障预测以及实时迁移和Project Tardigrade等主动行动保护客户的工作负载免受主机故障,并预先配置VM以缩短VM创建时间。

< font-size: 16px;">当然,工程技术的改进和持续的系统创新在平台可靠性的不断提高中也起着重要作用。

< font-size: 16px;">硬件故障预测是为了保护云客户免受硬件故障引起的中断。早在2018年,我们就分享了通过预测性ML改进Azure虚拟机弹性和实时迁移的故事。MicrosoftResearch和Azure为Azure Compute构建了磁盘故障预测解决方案,触发了客户VM从预测到故障节点的实时迁移到虚拟机。健康的节点。我们还将预测范围扩展到其他类型的硬件问题,包括内存和网络路由器故障。这使我们能够执行预测性维护,以提高可用性。

< font-size: 16px;">通过创建预配置的VM,Azure中的预配置服务为VM部署带来了可靠性和延迟优势。预先配置的VM是在客户请求VM之前预先创建并部分配置的VM。正如我们在IJCAI 2020出版物中描述的那样,正如我们在上述AAAI-20主题演讲中描述的那样,预配置服务利用预测引擎来预测VM配置以及要预创建的每个配置的VM数量。该预测引擎应用基于历史和当前部署行为进行训练的动态模型,并预测未来的部署。预配置服务使用此预测为每个VM配置创建和管理VM池。预配置服务通过按照最新预测的规定销毁或添加VM来调整VM池的大小。一旦识别出与客户请求匹配好网站建设的VM,就将VM从预先创建的池中分配给客户的订阅。

< font-size: 16px;">适用于DevOps的AI

< font-size: 16px;">人工智能可以提高工程效率并帮助快速交付高质量的服务。以下是AI for DevOps解决方案的一些示例。

< font-size: 16px;">事件管理是云服务管理的重要方面-识别和缓解罕见但不可避免的平台中断。典型的事件管理过程包括多个阶段,包括检测,参与和缓解企业营销渠道策略阶段。每个阶段花费的时间用作关键绩效指标(KPI),以衡量和推动快速解决问题。KPI包括检测时间(TTD),参与时间(TTE)和缓解时间(TTM)。

< font-size: 16px;">事件管理程序包括检测时间(TTD),参与时间(TTE)和缓解时间(TTM)。

< font-size: 16px;">

< font-size: 16px;">图4.事件管理过程。

< font-size: 16px;">正如AAAI-20会议在AIOps云服务事件管理创新中所分享的那样,我们已经开发了基于AI的解决方案,使工程师不仅可以及早发现问题,还可以确定合适的团队参与进来,从而减轻尽快。与平台的紧密集成可在某些情况下实现端到端的非接触式缓解,从而大大降低了对客户的影响,因此改善了整体客户体验。

< font-size: 16px;">异常检测为Azure IaaS提供了端到端的监视和异常检测解决方案。该检测解决方案的目标是广泛的异常模式,不仅包括由阈值定义的通用模式,而且还包括通常更难检测的模式,例如泄漏模式(例如内存泄漏)和新出现的模式(不是峰值,但是随着长期的波动而增加)。由异常检测解决方案生成的见解将注入到现有的Azure DevOps平台和流程中,例如,通过遥测平台,事件管理平台进行警报,并在某些情况下触发与受影响客户的自动通信。这有助于我们尽早发现问题。

< font-size: 16px;">对于已经进入面向客户的功能的示例,动态阈值是基于ML的异常检测模型。它是通过Azure门户或ARM API使用的Azure Monitor的功能。动态阈值允许用户调整其检测灵敏度,包括指定将触发监视警报的违规点数。

< font-size: 16px;">安全部署可作为Azure全球基础架构组件安全部署的智能全球“看门狗”。我们构建了一个代号为Gandalf的系统,该系统可以分析时间和空间相关性,以捕获在部署数小时甚至数天后发生的潜在问题。这有助于识别(在大量的正在进行的部署期间)可疑的部署,这在Azure方案中很常见,并有助于防止问题传播,从而防止对其他客户的影响。我们在此较早的博客文章中提供了有关安全部署实践的详细信息,并在USENIX NSDI 2020论文和幻灯片中更详细地介绍了甘道夫的工作方式。

< font-size: 16px;">面向客户的AI

< font-size: 16px;">为了改善Azure客户的体验,我们一直在开发AI解决方案以支持客户管理的整个生命周期。例如,已经开发了决策支持系统,以通过利用客户的服务选择和所遇到问题的逐字摘要来指导客户朝着最佳选择支持资源的方向发展。这有助于缩短获得客户和合作伙伴正确的指导和支持所需的时间。

< font-size: 16px;">人工智能服务平台

< font-size: 16px;">为了提高管理全球规模云的效率,我们一直在投资构建支持使用AI的系统,以优化云资源的使用并从而优化客户体验。一个示例是Resource Central(RC),它是Azure的AI服务平台,我们在ACM的Communications中对其进行了描述。它从Azure容器和服务器收集遥测信息,从它们的先前行为中学习,并在被请求时生成对其未来行为的预测。我们已经在使用RC来准确预测Azure Compute工作负载的许多特征,包括资源采购和分配,所有这些都有助于提高系统性能和效率。

< font-size: 16px;">展望未来

< font-size: 16px;">我们已经分享了将AI注入Azure平台和DevOps流程的愿景,并重点介绍了已在使用的几种解决方案,这些解决方案可在一系列领域中提高服务质量。希望我们分享内部AI和ML解决方案的更多详细信息,以便将来实现更加智能的云管理。我们相信,这些是正确的投资解决方案,可以提高我们作为云提供商的效率和效率,包括提高Azure平台本身的可靠性和性能。

通过人工智能提高Azure服务质量:AIOps

上一篇:YouTube新频道如何快速涨粉?我有10个技巧!
下一篇:视频爆量攻略——YouTube视频推荐算法详解


版权声明:以上主题为“通过人工智能提高Azure服务质量:AIOps"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    通过人工智能提高Azure服务质量:AIOps
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“通过人工智能提高Azure服务质量:AIOps”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通通过人工智能提高Azure服务质量:AIOps的相关事宜。

关键词:通过人工智能提高Azure服务

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号