华为云在混沌工程场景下的可靠性测试

  • 时间:
  • 浏览:3

随着互联网的快速发展,传统的单工程的性能瓶颈越造出家 显,分布式系统的优点越发突出。分布式系统具有廉价高效的特点,利用性能相对一般的PC横向扩展,提升服务器性能,通过软件来保障系统的高可靠性。

机会分布式系统地处API接口通信、微服务架构、节点规模大等特点,增加了系统的复杂性性和出错的概率,从而先要确保系统的容错机制得到充分的验证,依赖自动化工具来完成对系统端到端验证是不可补救的。  

Netflix和类式互联网企业构建的大规模的分布式系统,不可补救地会地处如机器崩溃和网络延迟等故障。为了给客户提供“永远在线”的体验,建立系统都有益于可靠运行的信心。须要软件有益于检测、补救各种错误情况表,除了几瓶地处概率较低的极端故障。

华为云可靠性补救方案

在业界,混沌工程被定义为“在分布式系统上进行实验, 以建立对系统抵御生产环境中失控条件的能力的信心”。

 基于华为在ICT领域10多年的软件可靠性测试经验,以及工程师们的千万个夜以继日,华为云推出了在混沌工程领域应用实践的一套全版的补救方案。目标是沉淀通用的故障模式,从入门到精通,从研发到生产,层层推进,以在线演练和专业测评来持续暴露什么的什么的问题,“补救失败的最佳土方式然后老会 失败,在真实环境测试,而都在 模拟环境”,通过线上真实的什么的什么的问题来推动产品全方位的改进。

1、全面有效的故障模式库

基于华为在ICT领域10多年的实践积累和数百产品的实际应用的沉淀,电信领域软件的高要求,我门歌词 通过正向分析、事故分析、业界案例分析一一兩个多维度建立全面的故障模式库。

2、精准高效的故障模拟

我门歌词 通过软件模拟各种硬件故障,对应用无侵入,然后跟应用的实现语言无关。

3、端到端全自动化测评

我门歌词 实现了智能识别故障对象,然后全自动化运行,自动度量KPI,自动实现风险评估,生成测评报告,测试工程可反复执行。补救失败的最佳土方式然后老会 失败。在真实环境测试,而都在 模拟环境。通过我门歌词 的端到端全自动化测评,都有益于实现你这名 目标。

华为云混沌工程应用场景

入门级可靠性测试:手工注入

功能:提供对Kubernetes集群、弹性云服务器的单业务实例、单故障模式的注入。

适用场景:开发人员针对取舍故障的自验证;测试人员针对可靠性什么的什么的问题回归验证等。

特点:操作简单,故障注入/清除结果及系统的表现清晰可见。

手工注入是混沌工程的入门级功能,操作非常容易,结果直接清晰。

1、首先在服务所在的容器集群机会节点上安装探针,一键安装,秒级创建,波特率加快波特率;

2、然后取舍注入对象和注入的故障,还都有益于取舍设置告警、CPTS压测工程,就都有益于完成一次故障注入;

3、再接着然后以5分钟为维度获取监控数据生成测试报告;

4、最后你就都有益于基于报告来评估服务可靠性的质量了。

全流程可视化操作,只用鼠标点点点就都有益于了;简单易用,使用门槛低,非常方便开发者和测试人员进行基本的可靠性测试。

进阶级可靠性测试:故障演练

功能:提供对单工作负载的随机故障注入,预置了多种入门级和进阶级演练场景。

适用场景:线下随机故障注入测试;线上例行故障演练、专项演练等。

特点:模型化的场景定义、灵活的编排调度、富足的评估报告。

故障演练主要使用场景是线上例行故障演练和专项演练。相比于手工注入,故障演练会提供多种入门级和进阶级的演练场景。上图为传统的手工演练流程,与混沌工程提供的故障演练能力对比。

三、四年前我门歌词 还地处传统手工演练阶段,全流程的手工进行,后续逐步演变为现在混沌工程提供的全自动化故障演练能力,经我门歌词 本人实际使用对比,现在的自动化演练过程比手工更准确和规范,补救人为由于的差错;可靠性专项测试人员投入的时间都有益于减少500%,端到端波特率提升10倍以上。

我门歌词 提供如下的预置模板,一起也支持自定义演练任务。

高阶级可靠性测试:自动测评

功能:提供对多工作负载全量的可靠性测评。

适用场景:云服务的全量可靠性测评;不同服务、不同版本的可靠性能力对比。

特点:智能对象识别、自动用例生成、无脚本化执行、自动KPI度量、富足的评估报告。

自动测评最大的特点然后智能对象识别、自动用例生成、不用定制脚本的全自动化执行、自动KPI度量生成富足的评估报告,都有益于对不同服务、不同版本的可靠性能力进行对比。

自动测评服务的智能对象识别能力,保证了故障对象覆盖的全面性,能有效补救人工测试老出的遗漏。自动用例生成与无脚本化执行,大幅节省了用例设计和自动化脚本编写的工作,一起降低了自动化可靠性测试对人员技能的要求。

系统预置了3种常见场景模板,一起支持用户自定义。既都有益于用预置目标快速创建任务,也都有益于灵活的定制任务。

       测评报告

混沌工程通过结合华为云上的CCE、ECS、CPTS、AOM、APM等服务,提供了一套全版的端到端的可靠性测试补救方案,补救了测有哪些、如保测、如保评价的什么的什么的问题。

在华为云上,云服务部署的载体要么是ECS的弹性云服务器,要么是CCE的容器集群,我门歌词 现在机会支持对CCE容器集群和弹性云服务器ECS(linux)进行故障注入。

CPTS服务都有益于实现对应用接口的压测,在故障注入的一起运行,通过CPTS的报告用来评估故障对业务的影响。

AOM都有益于完成对容器、主机的资源监控,以及自定义阈值告警,故障注入后相关的监控数据和告警数据会被写入混沌工程测试任务的报告中,然后根据可靠性质量评估土方式实现自动KPI度量,生成评估报告。

APM提供了调用链功能,在故障注入后,利用调用链都有益于快速完成什么的什么的问题定位分析。

可靠性质量评估土方式上,我门歌词 采用的是基于可靠性关键质量属性的KPI评估土方式,如下图。从故障模式维度和测试对象维度对KPI进行分析,都有益于针对本人的服务价值形式,自主调整评估的参数,然后生成测评报告。

评估属性和土方式