<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AIRA2 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/aira2/</link>
        <description>Recent content in AIRA2 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Wed, 29 Apr 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/aira2/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Meta AIRA₂：AI 研究 Agent 的瓶颈，已经从&#34;会不会想&#34;变成&#34;能不能规模化试错&#34;</title>
        <link>https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/</link>
        <pubDate>Wed, 29 Apr 2026 10:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/cover.png" alt="Featured image of post Meta AIRA₂：AI 研究 Agent 的瓶颈，已经从&#34;会不会想&#34;变成&#34;能不能规模化试错&#34;" /&gt;&lt;blockquote&gt;
&lt;p&gt;当 AI Agent 进入科研场景，真正的竞争力不再是单次回答有多聪明，而是它能不能像一支实验室团队那样持续试错、可靠评估、高效调度资源。Meta AI 的 AIRA₂ 给出了一个系统级答案。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/cover.png&#34;
	width=&#34;1408&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/cover_hu_94b76728d99a3f72.png 480w, https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/cover_hu_b23747dbf0497adc.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;封面：Meta AIRA₂ 研究 Agent 的系统工程进化&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;183&#34;
		data-flex-basis=&#34;440px&#34;
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;1-研究-agent-的真正瓶颈不是智商&#34;&gt;1. 研究 Agent 的真正瓶颈不是&amp;quot;智商&amp;quot;
&lt;/h2&gt;&lt;p&gt;过去两年，AI Agent 的讨论大多围绕一个核心问题：模型够聪明吗？&lt;/p&gt;
&lt;p&gt;但在科研场景下，这个问题的权重正在下降。一个能写出漂亮代码片段的 LLM，和一个能在 24 小时内独立设计实验、运行代码、分析结果并迭代改进的 Agent，完全是两回事。后者的瓶颈不在于&amp;quot;会不会想&amp;quot;，而在于&lt;strong&gt;能不能规模化地试错&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;2026 年 4 月 16 日，Meta AI 发布了 AIRA₂（Asynchronous Intelligent Research Agent），这是一套专门用于 AI 研究任务的 Agent 架构。它在 MLE-bench-30 上 24 小时达到 &lt;strong&gt;81.5%&lt;/strong&gt; 的 percentile rank，72 小时达到 &lt;strong&gt;83.1%&lt;/strong&gt;，比最强基线高出超过 10 个百分点；在 AIRS-Bench 的 20 个多样化研究任务中，有 &lt;strong&gt;6 个超过了人类 SOTA&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这组数据的真正意义不在于分数本身，而在于它证明了一件事：当 Agent 的架构从&amp;quot;单线程聊天&amp;quot;进化到&amp;quot;分布式实验系统&amp;quot;，能力的跃升是质变而非量变。&lt;/p&gt;
&lt;h2 id=&#34;2-三个结构性瓶颈&#34;&gt;2. 三个结构性瓶颈
&lt;/h2&gt;&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-bottlenecks.png&#34;
	width=&#34;1408&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-bottlenecks_hu_a1b537c3abd40b20.png 480w, https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-bottlenecks_hu_7fe11f33fe9828c0.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;AI 研究 Agent 的三个结构性瓶颈&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;183&#34;
		data-flex-basis=&#34;440px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;AIRA₂ 的设计起点是对现有研究 Agent 的系统性诊断。Meta 团队识别出三个结构性瓶颈：&lt;/p&gt;
&lt;h3 id=&#34;瓶颈一同步单-gpu-执行限制吞吐&#34;&gt;瓶颈一：同步单 GPU 执行限制吞吐
&lt;/h3&gt;&lt;p&gt;现有的研究 Agent 大多采用串行执行模式：LLM 生成一个实验方案 → 在单张 GPU 上运行 → 等待结果返回 → 再生成下一个方案。这种模式的样本吞吐量（sample throughput）极低，搜索空间被严重压缩。&lt;/p&gt;
&lt;p&gt;换句话说，Agent 不是不够聪明，而是&lt;strong&gt;试得不够多&lt;/strong&gt;。科研本质上是一个高维空间的搜索问题，如果每秒只能验证几个假设，再强的模型也会被算力墙挡住。&lt;/p&gt;
&lt;h3 id=&#34;瓶颈二验证集选择导致长周期搜索退化&#34;&gt;瓶颈二：验证集选择导致长周期搜索退化
&lt;/h3&gt;&lt;p&gt;这是一个更隐蔽但更要命的问题。现有 Agent 普遍依赖验证集（validation set）来选择最佳方案，但在长时间搜索过程中，验证集上的性能会逐渐过拟合，导致真实泛化能力反而下降。&lt;/p&gt;
&lt;p&gt;Meta 团队发现，这种&amp;quot;越搜越差&amp;quot;的现象并非真正的数据记忆（memorization），而是**评估噪声（evaluation noise）**被不断放大。Agent 在嘈杂的信号上做了太多优化，最终偏离了正确的方向。没有可靠的评估信号，搜索时间再长也是南辕北辙。&lt;/p&gt;
&lt;h3 id=&#34;瓶颈三固定单轮-llm-operator-限制能力上限&#34;&gt;瓶颈三：固定单轮 LLM operator 限制能力上限
&lt;/h3&gt;&lt;p&gt;大多数 Agent 使用预设的固定操作符（operator）——比如&amp;quot;写代码&amp;quot;&amp;ldquo;运行测试&amp;quot;&amp;ldquo;读文件&amp;rdquo;——每个操作符是单轮 LLM 调用。这种设计人为设定了能力天花板：Agent 无法在面对复杂错误时动态调整策略，也无法在调试过程中进行深度交互。&lt;/p&gt;
&lt;p&gt;一个科研任务中的典型场景是：实验失败 → 查看日志 → 发现是某个库的兼容性问题 → 搜索替代方案 → 修改代码 → 重新运行。这种多步骤、需要动态决策的流程，固定单轮 operator 根本处理不了。&lt;/p&gt;
&lt;h2 id=&#34;3-aira-的三板斧&#34;&gt;3. AIRA₂ 的三板斧
&lt;/h2&gt;&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-solutions.png&#34;
	width=&#34;1408&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-solutions_hu_6430552a144d502b.png 480w, https://blog.ccino.org/p/meta-aira2-agent-scaling-trial-error/imgs/three-solutions_hu_88240c0324bed515.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;AIRA₂ 的系统级解决方案&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;183&#34;
		data-flex-basis=&#34;440px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;针对这三个瓶颈，AIRA₂ 给出了三个架构级解决方案。&lt;/p&gt;
&lt;h3 id=&#34;第一板斧异步多-gpu-worker-pool&#34;&gt;第一板斧：异步多 GPU Worker Pool
&lt;/h3&gt;&lt;p&gt;AIRA₂ 将实验执行从同步串行改为&lt;strong&gt;异步并行&lt;/strong&gt;：一个中心调度器将实验任务分发给多个 GPU worker，worker 完成实验后将结果异步回传，LLM 可以持续生成新方案而不需要等待上一个实验结束。&lt;/p&gt;
&lt;p&gt;这个设计的核心收益是吞吐量的&lt;strong&gt;线性扩展&lt;/strong&gt;——加 GPU 就能加吞吐量。科研搜索的的本质是大海捞针，AIRA₂ 的做法不是让捞针的人更聪明，而是让千万根针同时被捞起。&lt;/p&gt;
&lt;p&gt;对于 AI 编程 Agent 的开发者来说，这个思路的直接启发是：你的 Agent 是否充分利用了并行计算资源？还是让它在单线程里&amp;quot;思考人生&amp;rdquo;？&lt;/p&gt;
&lt;h3 id=&#34;第二板斧hidden-consistent-evaluationhce&#34;&gt;第二板斧：Hidden Consistent Evaluation（HCE）
&lt;/h3&gt;&lt;p&gt;HCE 是 AIRA₂ 解决评估噪声的核心协议。它的关键思想是：&lt;strong&gt;隐藏一部分数据不参与验证集选择，只用于最终评估&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;具体来说，Agent 在搜索过程中只能看到一部分验证数据，用它来做方案筛选；但真正的性能由另一组完全隔离的数据来判定。这就避免了 Agent 在搜索过程中对验证集的渐进式过拟合。&lt;/p&gt;
&lt;p&gt;Meta 的消融实验表明，HCE 不仅提升了最终性能，更重要的是&lt;strong&gt;让长时间搜索变得可靠&lt;/strong&gt;——搜索 72 小时的性能确实比 24 小时更好，而不是更差。这在现有系统中并不常见。&lt;/p&gt;
&lt;p&gt;这个设计对任何需要长周期优化的 Agent 都有借鉴意义：你的评估机制是否足够&amp;quot;诚实&amp;quot;？Agent 有没有在不知不觉中欺骗自己？&lt;/p&gt;
&lt;h3 id=&#34;第三板斧react-agents-动态调试&#34;&gt;第三板斧：ReAct Agents 动态调试
&lt;/h3&gt;&lt;p&gt;AIRA₂ 用 ReAct（Reasoning + Acting）agents 替代了固定的单轮 operator。ReAct agent 可以动态决定下一步动作的范围，在实验失败时进行交互式调试，而不是按照预设流程机械执行。&lt;/p&gt;
&lt;p&gt;这意味着 Agent 不再是一个&amp;quot;写代码 → 跑代码 → 看结果&amp;quot;的流水线工人，而是一个能够&lt;strong&gt;自主诊断问题、调整策略、重新尝试&lt;/strong&gt;的研究助理。当遇到编译错误时，它可以查看报错信息、定位问题行、搜索文档、尝试修复——这个过程可能涉及多轮交互，而不是一次性完成。&lt;/p&gt;
&lt;h2 id=&#34;4-scaling-law-的意外发现&#34;&gt;4. scaling law 的意外发现
&lt;/h2&gt;&lt;p&gt;AIRA₂ 的消融实验还有一个值得关注的发现：&lt;strong&gt;性能遵循可预测的 scaling law，且能跨 LLM backbone 迁移&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这意味着 AIRA₂ 的架构收益不是某个特定模型的&amp;quot;魔法&amp;quot;，而是系统设计的固有优势。无论你用 GPT-4.6、Claude Sonnet 还是 Llama 4，异步并行、可靠评估和动态调试带来的收益是结构性的。&lt;/p&gt;
&lt;p&gt;对于正在构建 AI 编程工具或工作流 Agent 的团队来说，这是一个重要信号：与其把所有精力花在 prompt engineering 上，不如投入资源改善&lt;strong&gt;实验吞吐、评估闭环和资源调度&lt;/strong&gt;。这些是 Agent 能力的基础设施。&lt;/p&gt;
&lt;h2 id=&#34;5-对开发者的启发agent-的下一个战场是系统工程&#34;&gt;5. 对开发者的启发：Agent 的下一个战场是&amp;quot;系统工程&amp;quot;
&lt;/h2&gt;&lt;p&gt;AIRA₂ 揭示了一个更宏观的趋势：AI Agent 的竞争正在从&amp;quot;模型层&amp;quot;转向&amp;quot;系统层&amp;quot;。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Claude Code&lt;/strong&gt; 和 &lt;strong&gt;Cursor&lt;/strong&gt; 等产品证明，Agent 在编程场景下已经&amp;quot;够聪明&amp;quot;；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Kimi K2.6&lt;/strong&gt; 的 300 个 Agent 编排展示了规模化并行的可能性；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AIRA₂&lt;/strong&gt; 则告诉我们，当 Agent 进入高复杂度、长周期的科研任务时，胜负手在于它能否成为一个可靠的实验系统。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这三者的共同点是什么？它们都在回答同一个问题：&lt;strong&gt;如何让 Agent 不只是&amp;quot;会回答&amp;quot;，而是&amp;quot;能完成任务&amp;quot;&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;对于普通开发者，AIRA₂ 的实践可以归纳为三个 actionable 的启发：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;长任务必须解耦执行和决策&lt;/strong&gt;。不要让 LLM 等 GPU，也不要让 GPU 等 LLM。异步架构是 Agent 处理复杂任务的必要条件。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评估必须比优化更严格&lt;/strong&gt;。如果你的 Agent 在长时间运行后性能反而下降，先检查评估机制有没有泄露或被过拟合。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Operator 应该是动态的，不是固定的&lt;/strong&gt;。给 Agent 调试和反思的能力，比给它更多预设流程更有价值。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;结语&#34;&gt;结语
&lt;/h2&gt;&lt;p&gt;Meta AIRA₂ 不是一个惊艳的&amp;quot;黑科技&amp;quot;，而是一套扎实的系统架构。它的价值在于告诉我们：AI 研究 Agent 的下一个前沿不在模型权重里，而在工程架构中。&lt;/p&gt;
&lt;p&gt;当 Agent 开始做科研，它需要的不是更高的 IQ，而是一个能支持它大规模试错、可靠评估、动态调整的基础设施。换句话说，下一代 Agent 更像是一个&lt;strong&gt;自动化实验室&lt;/strong&gt;，而不是一个更聪明的聊天机器人。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ai.meta.com/research/publications/aira-overcoming-bottlenecks-in-ai-research-agents/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AIRA₂: Overcoming Bottlenecks in AI Research Agents&lt;/a&gt; — Meta AI Research&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2604.18292&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2604.06376v1&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MTA-Agent: An Open Recipe for Multimodal Deep Search Agents&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
