一、检查本地硬盘
许多服务器依靠内部硬盘驱动器来承载工作负载和存储、保存用户数据和其他功能。 硬盘介质问题会严重影响负载性能和稳定性,最终导致硬盘故障。
磁盘介质不完善,常见问题包括坏扇区和碎片。 RAID可以比较稳定,在磁盘发生故障的情况下保证数据的稳定性和一致性,但是较小的服务器,比如1U机架式服务器,可能无法提供足够的空间来实现RAID。 使用 CHKDSK(检查磁盘)之类的工具来检查硬盘驱动器的完整性,并尝试修复其中损坏的扇区。 最新版本的CHKDSK for Windows Server 2012 可以快速分析和修复文件系统结构的磁盘问题。 TG:@Sp_server
磁盘碎片不会消失,只要使用 NFS 和文件分配表或 FAT,文件系统就会使用第一个可用簇的磁盘空间。 碎片会降低服务器磁盘的速度并导致故障。 Windows Server 2012 自带的卷组优化等工具可以调度每个文件集群,保证数据的连续性。
二、查看事件日志输出
服务器事件日志包含丰富的信息,尤其是详细信息。 如果不仔细查看系统日志、恶意软件日志和其他日志,服务器维护是不完整的。 当然,关键系统问题应引起 IT 管理员和技术人员的注意,但也有无数非关键问题可能是长期或严重问题的迹象。
如果您正在维护服务器,请检查报告设置并验证警报和警报收件人地址是否正确。 例如,如果技术人员离开了服务器组,您需要更新服务器的报告系统。 仔细检查联系人列表和联系方式也很重要,仅将关键错误报告发送到技术人员的公司电子邮件地址是不够的,您需要确保可以在工作时间之外联系到他们。
主动分析日志数据。 当日志审查发现长期或反复出现的问题时,主动找到问题的解决方案并避免升级。 例如,如果服务器日志显示某些内存模块的可恢复报告,则不会触发严重警报。 但报告指出模块存在问题,IT 可以运行更详细的诊断程序来识别即将发生的故障。
如果问题很小以至于不需要关闭服务器,则可以将其重新联机以继续服务,直到需要更换硬件为止。
三、定期安装补丁和更新
服务器软件堆栈——BIOS、操作系统、管理程序、驱动程序、应用程序、支持工具——必须确保所有交互和协作。 不幸的是,软件代码很少是完美的或没有任何问题,因此此类软件问题需要频繁的补丁或更新来修复错误、提高安全性、简化操作、提高性能等。
并非所有软件都可以自动更新,管理员需要确认需要哪些补丁或升级包,然后评估和测试更新效果。 如果更新包修复了服务器上不存在的问题,则无需冒险。
软件开发人员无法测试每个软件和硬件的兼容性以及补丁和更新的潜在问题,因此可能会导致更多问题,这些问题可能发生在特定的服务器或软件集中。 例如,用于监控软件的代理补丁可能会导致关键应用程序出现性能问题,因为新代理需要比预期更高的带宽。
更小、更频繁的更新过程会加剧切换到 DevOps 后的潜在问题。 在部署之前,任何补丁或更新仍在实验室环境中进行测试。 始终确保可以撤消原始更改,并且可以恢复修改前的软件配置。
四、确保服务器可以呼吸
关闭服务器电源后,目视检查其内部和外部的气流路径。 清除所有积聚的灰尘和碎屑,以确保冷却空气顺畅流动。
从外部空气入口和出口开始,然后继续到系统机箱 CPU 散热器和风扇组件、内存模块和所有冷却风扇叶片和风道路径。 防静电工作区使用清洁、干燥的压缩空气清除灰尘和碎屑。 不要清洁机架中的服务器。
除尘是一个历史悠久的传统工艺,但这并不意味着它已经过时。 灰尘是一种热绝缘体,需要清除,现代替代冷却方案和 ASHARE 建议已提出提高数据中心的工作温度。 灰尘和其他阻碍空气流动的障碍物可能会导致服务器使用更多的能源,甚至降水堆积也会导致某些组件过早失效。
五、坚持日常维护
服务器管理员经常忽略计划中的例行维护。 不要等到实际发生故障才进行维护,留出时间进行例行维护可以防止出现问题。
维护频率取决于设备使用年限、数据中心环境、要维护的服务器容量等因素。 例如,与放置在配备 HEPA 过滤器的冷却良好的数据中心中的设备相比,放置在机房中的旧设备需要更频繁的检查。 组织可以根据供应商或第三方的例行检查策略安排日常维护计划。 如果供应商合同规定没有 4 个月或 6 个月的检验,则按计划执行。