乐百家手机版网址,世界赛押注,幸运六狮电玩城

科学研究

乐百家手机版网址,世界赛押注,幸运六狮电玩城: 科研新闻

当前您的位置: 首页 > 科学研究 > 科研新闻 > 正文

乐百家手机版网址,世界赛押注,幸运六狮电玩城:幸运六狮电玩城师生论文被存储系统领域CCF A类国际会议 FAST 2027录用

发布日期:2026-06-11 浏览量:

幸运六狮电玩城师生论文被存储系统领域CCF A类国际会议 FAST 2027录用

近日,乐百家手机版网址智能运维实验室研究成果被存储系统领域国际顶级会议——USENIX Conference on File and Storage Technologies(FAST 2027)录用。FAST是存储系统与文件系统领域最具影响力的国际学术会议之一,被中国计算机学会(CCF)列为A类国际会议。以下是该论文的简介:

论文标题:Deployed System: Labeling the Invisible: A Scalable Framework for Labeling Fail-Slow Failures in Cloud Storage Systems

作者:赵咏欣,孙雨昕,张圣林*,刘翔,栾佳琪,王润洲,辜文蔚,孙永谦,栗一丹,裴丹

作者单位:世界赛押注、华为云、清华大学

摘要

亚健康故障(fail-slowfailures)表现为系统性能持续退化而非完全崩溃,对大规模云存储系统的可靠性构成了严重威胁。然而,高质量标注数据集的匮乏严重制约了高效检测与诊断技术的发展;与此同时,在大规模云存储环境下进行人工标注不仅成本高昂,而且容易产生人为误差。

为解决上述问题,本文提出 SlowSight——一种面向云环境亚健康故障高效、准确标注的新型框架。SlowSight 采用多视角分析架构,联合建模单个组件的时间维度性能偏离以及同类组件之间的行为差异,从而全面捕获亚健康故障特征。为降低误检率,SlowSight 引入知识驱动的过滤机制,自动剔除与亚健康故障语义不一致的异常候选。同时,SlowSight 设计了以模式为中心的标注策略,通过聚合具有相似退化模式的异常实例,并在实例间传播一致性标签,从而显著提升标注结果的准确性与一致性。

我们将 SlowSight 部署于华为云生产环境,并在两个生产规模的磁盘亚健康故障数据集上进行了系统评估。实验结果表明,SlowSight 在两个真实生产数据集上的 F1 值分别达到 0.851 和 0.903;在通过故障注入构建的亚健康故障数据集上,F1 值达到 0.945,充分验证了其有效性与泛化能力。据我们所知,SlowSight 是首个面向云存储系统可扩展亚健康故障标注的框架。此外,我们已公开发布相关代码,以促进后续研究工作的开展。

背景与挑战

随着云计算和人工智能应用规模不断扩大,云存储系统已成为现代数字基础设施的重要组成部分。相比传统硬件“直接失效”的故障模式,越来越多设备会在彻底失效前经历较长时间的性能退化过程。这类亚健康故障虽然不会立即导致服务中断,却可能持续消耗系统资源、降低服务质量,并最终演化为更严重的系统问题。

当前,亚健康故障检测与诊断面临一个核心瓶颈——缺乏高质量标注数据。在真实生产环境中,这类故障通常只占全部监控数据中的极小比例,而其发生时间和影响范围往往难以直接确定。运维人员需要结合历史状态、同类设备行为以及领域经验进行综合判断,导致标注工作耗时耗力,难以规模化开展。

与此同时,自动化标注还面临三方面挑战:一是海量监控数据带来的高昂人工分析成本;二是不同设备和业务场景下故障表现差异显著,难以统一建模;三是大量由业务波动或资源竞争引起的异常与真实故障表现相似,容易造成误判和噪声标签。

核心方法与系统架构

图 1:SlowSight 整体框架图

SlowSight 旨在实现亚健康故障的高效发现与精准标注,其整体框架如图1所示,主要包括数据预处理、异常候选提取和模式中心化标注三个关键模块。

1. 数据预处理模块。针对云环境中普遍存在的数据缺失和无效指标问题,该模块首先利用预定义约束过滤异常数据,并通过插值方法补全缺失数据,恢复时间序列的连续性。随后,通过归一化处理消除不同指标之间的量纲差异,为后续异常检测与标注提供统一的数据基础。

2. 异常候选提取模块。为全面发现潜在亚健康故障,SlowSight 从时间和空间两个维度提取异常候选。

2.1历史偏差检测(时间维度)。SlowSight通过分析组件当前运行状态与历史正常行为之间的差异,识别持续性能退化过程中的异常模式。同时该框架结合动态阈值机制和迁移学习技术,在保证检测准确性的同时提升系统的可扩展性。

2.2同类组件比较(空间维度)。利用相同类型组件在相似工作负载下应具有相近行为特征的特点,通过聚类分析发现显著偏离群体行为的异常组件,并结合多阶段过滤机制提高异常识别精度。

3. 模式中心化标注模块。为降低人工标注成本,该模块首先提取异常片段的时域和频域特征,并结合领域知识过滤与亚健康故障无关的异常行为。随后,将具有相似退化模式的异常实例自动聚合为若干模式簇,仅需对每个模式簇中的代表样本进行标注,即可完成大规模异常数据的高效标注。为进一步提升标注效率,系统还提供交互式可视化界面,支持多指标联合分析和标注数据集管理。

实验验证与部署成效

研究团队基于华为云真实生产环境磁盘数据集、公开生产环境云存储亚健康故障数据集,对 SlowSight 进行了全面评估。实验结果表明,SlowSight 在数据集 D1 和 D2 上分别取得了0.851和0.903的 F1 分数。其精确率和召回率显著优于传统强基线方法,在保持高召回的同时有效降低了误报。

表 1:数据集信息

表 2:磁盘亚健康故障检测的有效性

此外,为验证框架的通用性,研究团队进一步构建了网络接口卡(NIC)亚健康故障注入数据集。实验结果表明,SlowSight 在该数据集上的 F1 分数达到 0.945,显著优于现有基线方法,验证了其从存储设备向网络设备迁移应用的能力,体现了良好的跨组件泛化性能。

表 3:网卡亚健康故障检测的有效性

研究团队还对 SlowSight 生成标注数据的质量进行了专门评估。实验结果表明,相比传统基于阈值的方法(ATC22),SlowSight 能够生成更加准确、一致的亚健康故障标签,并有效降低噪声数据对标注结果的影响。基于这些标注数据构建的下游诊断模型表现出更好的识别能力,验证了 SlowSight 在高质量故障数据集构建方面的有效性。

表 4:亚健康故障标注方法在下游分类任务中的有效性

目前,SlowSight 已成功部署于华为云生产存储集群中,服务于多类实际业务场景。通过自动聚合相似异常模式并辅助运维人员进行快速确认,SlowSight 显著降低了海量监控数据下的人工分析负担。实际应用表明,该系统可将亚健康故障数据标注时间缩短超过 90%,同时仅引入极低的系统资源开销,展现出良好的工程实用价值和产业应用前景。

研究意义与展望

本研究首次系统性地解决了云存储系统亚健康故障数据集构建过程中面临的效率与质量难题,提出了面向工业场景的可扩展标注框架 SlowSight,为构建高质量亚健康故障数据集提供了有效技术路径。

研究团队在长期部署实践中进一步发现,单一视角的异常检测方法难以适应复杂多变的生产环境,而融合历史偏差分析与同类组件比较的多视角建模能够显著提升检测鲁棒性。同时,具有良好可解释性的诊断结果以及人机协同的标注机制,是推动智能运维技术落地的重要保障。

未来,研究团队将进一步探索跨硬件组件的亚健康故障建模方法、多维特征融合技术以及可解释诊断证据自动生成技术,持续提升大规模云基础设施的智能运维能力,为构建更加可靠、自主和可信的新一代云计算平台提供支撑。

乐百家手机版网址官网入口(中国)官方网站-IOS/Android通用版(2026已更新)