课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在做软件测试的时候,压力测试中的一个项目就是对系统运行时常的一个测试,而这也是我们今天要说的软件程序运维管理,下面就一起来了解一下具体情况吧。
一、宕机事故频发,运维难度“更上一层楼”
一次次宕机事件证明了数据中心运维工作的重要性,但似乎不能避免。如今随着科技的进步万物互联时代的到来,数据中心作为重要基础设施发挥着重要作用,虽然数据中心在国内的发展只有十多年的时间,但已经从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临着更大的挑战,运维难度也“更上一层楼”。
超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。
二、减少人为失误,提升运维管理的专业技能
据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:
建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。
运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。
实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。
理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。
实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。
通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。
三、弥补人工运维不足,智能运维应运而生
如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即智能运维应运而生。如今更多的数据中心企业诸如腾讯、华为、京东等开始加大研发力度投入到智能运维的浪潮中来,将人工智能与运维结合,基于已有运维数据(日志、监控信息、应用信息等),通过机器学习的方法来提升运维效率,从而逐步取代人工的运维。相信未来数据中心将会越来越智能化。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。