为应对现代超级计算机存储子系统的复杂结构带来的冗长I/O 路径、资源竞争、应用性能低下等问题,国家超级计算无锡中心自主研发了I/O性能监控与分析诊断系统(简称Beacon)。Beacon 通过轻量级高可扩展的采集架构采集超级计算机的全机全路径的信息,运用大数据分析、机器学习等方法,实现了实时定位超级计算机的热点问题如:应用间冲突干扰、系统降级、系统配置错误等,并提出了多种解决方案。
目前,该系统已应用到了曙光“派”集群、“神威•太湖之光”和神威新一代超级计算机上,为用户和管理员监测应用和系统I/O性能、解决I/O问题热点带来了诸多便利,帮助解决了上百个问题,服务了数百个应用,累计节省了数亿核时。