课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在上文中给大家简单介绍了软件开发中的高可用性需求以及安全问题等内容,而今天我们就再来了解一下,软件运维监控都有哪些监控内容。
监控数据采集
广义上的网站监控涵盖所有非直接业务行为的数据采集与管理,包括供数据分析师和产品设计师使用的网站用户行为日志,业务运行数据和系统性能数据等。
用户行为日志收集
用户行为日志指用户在浏览器上所做所有操作及其所在的操作环境,包括用户操作系统与浏览器版本信息,IP地址,页面访问路径,页面停留时间等,这些数据对统计网站PV/UV指标,
分析用户行为,优化网站设计,个性化营销与推荐等非常重要。
具体用户行为日志收集手段有两种
服务器端日志收集,这个方案比较简单,Apache等几乎所有Web服务器都具备日志记录功能,可以记录大部分用户行为日志,开启Web服务器的日志功能即可。其缺点是可能会
出现信息失真,如IP地址是代理服务器地址而不是用户真实IP;多个链接指向同一个页面的情况下无法分辨访问路径等。
客户端浏览器日志收集,浏览器可以收集用户真实的操作行为,因此比服务器日志收集更加精确。其缺点是比较麻烦,需要在页面嵌入特定的JS脚本来完成。
服务器性能监控
收集服务器性能指标,如系统Load,内存占用,磁盘IO,网络IO等对尽早作出故障预警,及时判断应用状况,防患于未然,将故障扼杀在萌芽时期非常重要。此外根据性能监控数据,
运维工程师可以合理安排服务器集群规模,架构师及时改善系统性能及调整系统伸缩性策略
目前网站使用比较广泛的开源性能监控工具是Ganglia,支持大规模服务器集群,并支持以图形的方式在浏览器展示实时性能曲线。
业务运行数据报告
除了服务器系统性能监控,网站还需要监控一些具体业务场景相关的技术和业务指标,比如缓冲命中率、平均响应延迟时间,每分钟发送邮件数目、待处理的任务总数等。
不同于服务器性能监控,网站运维人员可以在初始化系统的时候统一部署,业务运行数据需要在具体程序中采集并报告,汇总后统一显示。
监控管理
监控数据采集后,除了用作系统性能评估,集群规模伸缩性预测等,还可以根据实时监控数据进行风险预警,并对服务器进行失效转移,自动负载调整,大化利用集群所有机器的资源。
报警
服务器运行正常的情况下,其各项监控指标基本稳定在一个特定水平,如果这些指标超过某个阀值,就意味着系统可能将要出现故障,这时候就需要对相关人员报警,及时采取措施,在
故障还未真正发生就将其扼杀在萌芽状态。
监控管理系统可以配置报警阀值和值守人员的联系方式,报警方式除了邮件,即时通讯工具,还可以配置收集短信,语音报警,保证发生报警时,工程师即时在千里之外,夜里睡觉也能及时
同时,快速响应。
自动控制
自动失效转移:除了应用程序访问失败时进行失效转移,监控系统也可以在发生故障的情况下主动通知应用,进行失效转移。
自动扩容:如果因访问压力大而导致服务性能指标下降,监控系统自动出发服务集群扩容。
自动限流:根据监控指标,自动控制访问流量。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。