乐百家手机版网址,世界赛押注,幸运六狮电玩城

科学研究

乐百家手机版网址,世界赛押注,幸运六狮电玩城: 科研新闻

当前您的位置: 首页 > 科学研究 > 科研新闻 > 正文

乐百家手机版网址,世界赛押注,幸运六狮电玩城:幸运六狮电玩城师生论文被人工智能领域顶会ICML2026录用

发布日期:2026-06-11 浏览量:

幸运六狮电玩城师生论文被人工智能领域顶会ICML2026录用

近日,乐百家手机版网址智能运维实验室的论文《Graph of States: Solving Abductive Tasks with Large Language Models》被人工智能领域的CCF A类国际会议——International Conference on Machine Learning(ICML)2026录用。该会议将于2026年7月6日至7月11日在韩国首尔举行。以下是论文简介:

论文标题:Graph of States: Solving Abductive Tasks with Large Language Models

作者:罗宇,高荣晨,滕璐,温希道,江佳珉,张清亮,孙永谦*,张圣林,冯佳崧,刘茼,张文杰,裴丹

作者单位:世界赛押注、温州医科大学、阿里云、联想、清华大学

Part.1 摘要

大语言模型在演绎推理和归纳推理上已取得显著进展,但对于更贴近真实世界决策过程的溯因推理(abductive reasoning),仍然缺乏通用而有效的框架。溯因任务的核心难点在于:模型往往只能从不完整的表层观测出发,需要通过动态检索和持续调查,不断缩小假设空间,最终定位最可能的根因。针对这一问题,本文提出 Graph of States(GoS),一个面向溯因任务的通用神经符号推理框架。GoS 通过“认知层 + 符号层”的双层架构,将多智能体协作与显式 belief state 建模结合起来:一方面,利用因果图显式表示症状、证据与假设之间的逻辑关系;另一方面,利用状态机约束推理过程中的回溯与下钻,使推理从无约束探索转变为有方向、可收敛的搜索。论文在医疗诊断和分布式系统故障诊断两个真实世界高风险场景上进行了系统评估,结果表明 GoS 显著优于现有单智能体与多智能体 baselines,在准确性、根因定位粒度以及推理稳健性上均表现突出。

Part.2背景与挑战

现实世界中的许多关键决策,本质上都不是“给定完整前提、直接推出结论”的演绎推理,而是“面对不完整信息、逐步收集证据、寻找最可能解释”的溯因推理。例如,医生需要根据有限症状不断申请检查,逐步锁定疾病;运维工程师需要依据初始告警,持续查询日志、指标和系统状态,最终定位故障根因。论文指出,现有主流推理框架大多为静态演绎任务设计,直接迁移到这类动态溯因任务时会暴露出四类典型问题:第一,Evidence Fabrication,即模型为了维持当前假设,会幻造并不存在的证据;第二,Context Drift,即在长链条调查过程中逐渐丢失当前推理状态,重复无效探索;第三,Failed Backtracking,即面对矛盾证据时无法有效回退到更早层级的假设分支;第四,Early Stopping,即模型停留在较粗粒度的“表面诊断”上,无法继续下钻到可执行的细粒度根因。

这些问题的根源在于两点:一是现有框架通常把“假设、证据、推理进展”隐式地混在自然语言上下文中,缺乏显式的状态表示;二是缺乏明确的状态控制机制,使得回溯、下钻、终止等关键决策完全依赖模型自由发挥,从而导致推理过程不稳定、不可控。GoS 的提出,正是为了系统性解决这两个结构性缺陷。

图1:传统推理框架在演绎任务中表现良好,但迁移到医疗诊断、故障诊断等溯因任务时,会暴露 Evidence Fabrication、Context Drift、Failed Backtracking 和 Early Stopping 四类关键问题。

Part.3核心方法与系统架构

GoS 的核心思想,是为溯因推理构建一个“显式、可控、可回退”的推理状态空间。为此,论文设计了一个双层神经符号框架:认知层负责执行面向具体领域的多智能体协作,符号层则维护结构化 belief state,并对推理过程进行导航与约束。具体来说,认知层由一个 central agent 和若干 expert agents 组成,它们分别对应真实世界中的专业角色,例如在医疗场景中对应主治医生、影像科医生、病理科医生,在分布式系统场景中对应应用运维、Linux 运维、网络运维、数据库运维等。这样设计的目的是让协作过程更符合人类真实分工,并提高推理过程的可解释性。

图2:总体框架图

更关键的是符号层。GoS 不是把所有推理过程都藏在文本上下文里,而是显式维护一个 belief state,由 causal graph 和 state machine 两部分组成。前者用于记录症状、证据、假设以及它们之间的支持、反驳、细化关系;后者用于控制推理层级,决定当前应该继续在这一层收集证据、向下 drill-down 到更细粒度假设,还是在证据冲突时回溯到更早层级重新选择方向。与此同时,GoS 还引入 reasoning focus 机制,在每一步始终聚焦当前最有可能的假设,避免无目标的广泛搜索,把推理资源集中到最值得追踪的分支上。

图3:双向神经-符号交互

在推理过程中,GoS 通过一个双向闭环运行:符号层先根据当前 belief state 找到 reasoning focus,并指导认知层开展针对性的调查;随后认知层通过工具调用与分析获取新证据,再将结果反馈给符号层,用于更新 causal graph、重新校准假设置信度,并触发状态转换。正是在这个过程中,GoS 实现了两种关键能力:一是 backtracking,当当前路径被矛盾证据否定时,系统能够主动剪枝并回到更浅层级重新选择分支;二是 drill-down,当某一假设已获得足够证据支持时,系统能够继续向更细粒度的子假设深入,直到达到真正可执行的根因级别。

图4:状态转换:回溯与下钻

GoS 的关键创新并不只是“多智能体协作”,而是首次把溯因推理中的假设演化、证据约束、层级回溯和根因下钻,统一到一个显式 Graph of States 中进行建模。

Part.4实验验证与效果分析

为了验证GoS的有效性,论文在两个真实世界溯因场景上开展了实验:一是医疗诊断,二是分布式系统故障诊断。在医疗诊断任务中,作者基于DiagnosisArena对任务进行了重新构造:不再像传统benchmark那样一开始就给出完整病历,而是只给出表层症状和基础检查结果,要求模型像真实医生一样主动申请辅助检查、逐步检索外部信息,最终完成诊断。这一改造使任务真正恢复了“主动取证、动态推理”的溯因本质。

实验结果表明,在医疗诊断任务上,GoS在LLM-as-a-Judge和Human-as-a-Judge两种评估下均显著优于所有baseline。特别是在Human-as-a-Judge下,GoS的Match达到39.86%,Relevant达到78.99%,说明其不仅更容易命中正确诊断,而且更能给出具有临床意义的高相关答案。相比之下,虽然Multi/FoT等方法通过更大搜索空间提升了一定的Relevant,但代价显著更高,而GoS通过定向收敛搜索,在成本更低的情况下取得了更好的准确性。

表1:医疗诊断结果

在分布式系统故障诊断任务上,GoS 同样取得了明显优势。实验中,GoS 的 Match 达到 70.67%,Relevant 达到 88.00%,在 Match 上相比最强 baseline 提升了 36.67 个百分点。这一点尤其关键,因为分布式系统场景中很多 baseline 虽然能够找到“问题大概出在哪个方向”,因此 Relevant 不低,但常常停留在粗粒度结论,无法继续下钻到真正的 fine-grained root cause。GoS 之所以能够明显拉开 Match 差距,正是因为它的 state machine 显式约束了 coarse-to-fine 的推理过程,使系统不会满足于表层症状,而是持续向更具体、可执行的根因收敛。

表2:分布式系统故障诊断结果

为了进一步验证各关键模块的作用,论文还进行了消融实验。结果显示,无论是 reasoning focus、causal graph,还是 state machine,一旦去除,性能都会明显下降。其中去掉 causal graph 或 state machine 后,医疗诊断任务中的 Match 直接下降到 12.32%,说明显式 belief state 和状态控制机制并不是锦上添花,而是 GoS 能够稳定处理复杂溯因任务的根本所在。

表3:消融实验结果

此外,论文还进行了敏感性分析,考察推理预算和关键阈值对系统性能的影响。结果表明,随着 neuro-symbolic interaction 轮数和 expert retrieval 次数增加,GoS 的整体表现会持续提升;更重要的是,即使在较受限的预算下,GoS 依然能够超过最强 baseline 的峰值表现,说明其推理过程具有更高的搜索效率。与此同时,论文还分析了 drill-down 过程中两个关键阈值——支持证据数量阈值和置信度差距阈值——对结果的影响。整体来看,适中的阈值有助于抑制草率下钻,提升最终诊断的正确性;过高的阈值则会使系统更保守,更容易停留在较粗粒度的结论上。这说明 GoS 不仅性能更强,而且具备较好的可控性,可以根据实际部署需求在“更激进地下钻”与“更稳健地保守判断”之间进行调节。

图5:敏感性分析

除了定量结果外,论文还通过一个分布式系统故障诊断案例直观展示了 GoS 的推理过程。当多个告警同时触发时,GoS 首先基于初始告警构建候选假设,并选择置信度最高的方向作为当前推理焦点;随后,它协调 LinuxOperator 执行针对性的 shell 检查和日志分析,逐步确认文件系统被重新挂载为只读,并进一步定位到更细粒度的根因——XFS metadata corruption。这个案例直观展示了 GoS 如何通过“聚焦当前最可能假设—收集证据—更新 belief state—继续下钻”的闭环过程,将初始的粗粒度异常逐步收敛到真正可执行的根因结论。

图6:分布式系统故障诊断案例图

Part.5研究意义与展望

GoS 的意义在于,它把大语言模型在高风险现实任务中的“推理问题”往前推进了一步。过去,大多数方法更多是在特定领域上做工程增强,例如增加 RAG、增加领域知识库、增加数据预处理或专家协作,但其底层推理范式本身并没有真正针对溯因任务做设计。GoS 则进一步指出:对于医疗诊断、分布式系统故障诊断、刑侦调查等任务而言,问题的关键不只是“拿到更多信息”,而是要让模型能够在不完整信息下,显式维护 belief state、正确处理冲突证据、必要时回溯、合适时下钻,最终把搜索过程稳定地导向真实根因。也就是说,GoS 提供的不是某一个垂直场景的特化 agent,而是一个面向溯因推理的通用 reasoning backbone。

论文也指出,GoS 并不排斥已有领域方法,恰恰相反,它与领域特化增强是互补关系。比如在医疗场景中,可以进一步结合高质量医学知识库或 RAG,降低错误检查选择;在 AIOps 场景中,可以结合日志、指标、链路等多模态预处理与 SOP 检索,提高有限预算下的搜索效率。因此,未来一个很重要的方向,就是将 GoS 这一通用溯因推理框架,与不同领域中沉淀下来的专业知识和工具能力深度结合,构建更可靠、更可解释、也更可部署的智能决策系统。

乐百家手机版网址官网入口(中国)官方网站-IOS/Android通用版(2026已更新)