<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>代码安全 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/%E4%BB%A3%E7%A0%81%E5%AE%89%E5%85%A8/</link>
        <description>Recent content in 代码安全 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 29 Jun 2026 08:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/%E4%BB%A3%E7%A0%81%E5%AE%89%E5%85%A8/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>GLM 5.2 击败 Claude？国产模型出海的新战场，不是聊天框</title>
        <link>https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/</link>
        <pubDate>Mon, 29 Jun 2026 08:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/cover.png" alt="Featured image of post GLM 5.2 击败 Claude？国产模型出海的新战场，不是聊天框" /&gt;&lt;p&gt;Semgrep 6 月 22 日发了一篇安全研究文章，标题很会挑事：&lt;code&gt;We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks&lt;/code&gt;。直译过来，大概是「我们家里也有 Mythos：GLM 5.2 在网络安全基准里打败了 Claude」。&lt;/p&gt;
&lt;p&gt;如果只看这个标题，很容易写成一篇「国产模型终于超过 Claude」的情绪文。但 Semgrep 原文里真正有价值的地方，并不在这个口号上。&lt;/p&gt;
&lt;p&gt;他们做的是一个很具体的实验：拿一组 IDOR（Insecure Direct Object Reference，不安全直接对象引用）漏洞检测任务，比较不同模型和不同运行框架的表现。结果里，GLM 5.2 在一个更朴素的 Pydantic AI（Python 智能体框架）环境里，只靠同一套提示词和代码库，跑出了 39% F1；Claude Code 在 Claude Code SDK 里跑出 32%；Semgrep 自家的多模态管线，因为有专门的 Harness（支架工程）帮它枚举端点、筛上下文、引导模型看关键位置，最高跑到 61%。&lt;/p&gt;
&lt;p&gt;所以这件事更准确的说法不是「GLM 5.2 全面打败 Claude」。而是：在 Semgrep 的这一组 IDOR 任务里，一个开权重国产模型，在没有专门安全扫描支架的情况下，超过了一个前沿 coding agent（编程智能体）。&lt;/p&gt;
&lt;p&gt;这个差别很重要。前者是榜单爽文，后者才是一个可能改变开发者工具市场的信号。&lt;/p&gt;
&lt;h2 id=&#34;先把实验说清楚&#34;&gt;先把实验说清楚
&lt;/h2&gt;&lt;p&gt;Semgrep 这次测的是 IDOR。这个漏洞不太像传统静态分析里容易抓的污点传播问题，它的麻烦在于「缺了一个检查」。&lt;/p&gt;
&lt;p&gt;比如一个接口直接按 URL 里的 &lt;code&gt;user_id&lt;/code&gt; 去取用户资料，却没有确认当前登录用户有没有权限访问这个 &lt;code&gt;user_id&lt;/code&gt;。代码里不一定有明显的危险函数，也不一定有一行红得发亮的 sink。真正的问题是业务逻辑缺了一块授权判断。&lt;/p&gt;
&lt;p&gt;这类漏洞对人类代码审计员来说都不轻松，对模型也一样。它需要模型跨文件理解路由、鉴权、数据对象和调用路径。你不能只看某一行代码说它危险，要理解「这里本来应该有一层权限检查，但没有」。&lt;/p&gt;
&lt;p&gt;Semgrep 把三件事固定下来：同一组 IDOR 数据集、同一套评估方式、同一份 IDOR 系统提示词。然后变化的是模型和它外面的运行框架。&lt;/p&gt;
&lt;p&gt;结果大概是这样：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;配置&lt;/th&gt;
          &lt;th&gt;运行方式&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;F1&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;1&lt;/td&gt;
          &lt;td&gt;Semgrep Multimodal + GPT 5.5&lt;/td&gt;
          &lt;td&gt;Semgrep 自家 Harness&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;61%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2&lt;/td&gt;
          &lt;td&gt;Semgrep Multimodal + Opus 4.8&lt;/td&gt;
          &lt;td&gt;Semgrep 自家 Harness&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;53%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;3&lt;/td&gt;
          &lt;td&gt;GLM 5.2&lt;/td&gt;
          &lt;td&gt;Pydantic AI，裸提示词&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;39%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;4&lt;/td&gt;
          &lt;td&gt;Claude Code + Opus 4.6&lt;/td&gt;
          &lt;td&gt;Claude Code SDK&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;37%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;5&lt;/td&gt;
          &lt;td&gt;Claude Code + Opus 4.8/4.7&lt;/td&gt;
          &lt;td&gt;Claude Code SDK&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;6&lt;/td&gt;
          &lt;td&gt;MiniMax M3&lt;/td&gt;
          &lt;td&gt;Pydantic AI，裸提示词&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;23%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;7&lt;/td&gt;
          &lt;td&gt;Kimi K2.7 Code&lt;/td&gt;
          &lt;td&gt;Pydantic AI，裸提示词&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;22%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8&lt;/td&gt;
          &lt;td&gt;GPT-5.5&lt;/td&gt;
          &lt;td&gt;Codex&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;9&lt;/td&gt;
          &lt;td&gt;Nemotron Super 3 120B&lt;/td&gt;
          &lt;td&gt;Pydantic AI，裸提示词&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;10&lt;/td&gt;
          &lt;td&gt;DeepSeek V4&lt;/td&gt;
          &lt;td&gt;Pydantic AI，裸提示词&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;17%&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/benchmark-results.png&#34;
	width=&#34;1672&#34;
	height=&#34;941&#34;
	srcset=&#34;https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/benchmark-results_hu_8493826134bea4bb.png 480w, https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/benchmark-results_hu_652c6274382c22b9.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;Semgrep IDOR 基准结果：GLM 5.2 在裸提示词设置下位列第三&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;177&#34;
		data-flex-basis=&#34;426px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;原文还给了一个很刺眼的数字：按 GLM 5.2 的价格估算，每找到一个真实漏洞的成本大约是 0.17 美元。Semgrep 认为，在要扫成千上万个端点的场景里，这种 per-bug economics（单漏洞经济账）不是脚注，而是决定这个方案能不能规模化使用的关键。&lt;/p&gt;
&lt;p&gt;但他们也反复强调，这不是一个纯粹的模型能力横评。Semgrep 自家的前两名吃到了 Harness 的红利。GLM 5.2 的第三名，则是「裸提示词」条件下的意外突出。&lt;/p&gt;
&lt;p&gt;这就把讨论从「谁是最强模型」拉到了另一个问题：安全工作流里，到底是模型更重要，还是模型外面的运行框架更重要？&lt;/p&gt;
&lt;h2 id=&#34;真正的胜负不在模型名字上&#34;&gt;真正的胜负，不在模型名字上
&lt;/h2&gt;&lt;p&gt;很多人看到「GLM 5.2 beats Claude」会下意识开始站队：国产模型是不是追上了？Claude 是不是退步了？开权重模型是不是全面反超闭源模型？&lt;/p&gt;
&lt;p&gt;这几个问题都有点太急。&lt;/p&gt;
&lt;p&gt;Semgrep 原文里其实给了更克制的结论：这是一个任务、一个数据集、一次实验。IDOR 检测本身有随机性，换成 SSRF、权限绕过、供应链恶意包，结果都可能变。GLM 5.2 在这组任务上跑赢，不等于它在所有代码安全任务上都更强。&lt;/p&gt;
&lt;p&gt;但这并不削弱这件事的意义。意义在于，安全这样的高信任场景里，开权重模型已经不是「陪跑选手」了。&lt;/p&gt;
&lt;p&gt;一年前，如果把开权重模型放到漏洞检测榜里，很多人默认它只是来凑数。现在，一个来自智谱的 GLM 5.2，在没有 Semgrep 那套端点枚举和上下文筛选支架的情况下，跑到了第三。它没有赢过 Semgrep 自家的多模态管线，但它证明了一件事：前沿模型的优势，不再天然等于闭源模型的优势。&lt;/p&gt;
&lt;p&gt;这对安全团队很实际。&lt;/p&gt;
&lt;p&gt;闭源前沿模型通常能力强，但贵、不可控、部署边界复杂。安全代码、漏洞样本、内部仓库这些东西，很多企业不愿意轻易丢到外部 API 里。开权重模型虽然不等于完整开源，训练数据和训练流程仍然不可见，但它至少可以在企业自己的环境里运行、微调、接入内部工具链。对金融、政企、云厂商和安全团队来说，这个部署形态本身就有价值。&lt;/p&gt;
&lt;p&gt;如果能力差距很大，部署自由没什么用。可一旦能力在某些垂直任务上接近甚至局部超过，选择逻辑就会变。&lt;/p&gt;
&lt;h2 id=&#34;国产模型出海可能不是从聊天框开始&#34;&gt;国产模型出海，可能不是从聊天框开始
&lt;/h2&gt;&lt;p&gt;这也是我觉得这条新闻最值得写的地方。&lt;/p&gt;
&lt;p&gt;过去我们谈国产大模型出海，常常想象的是几个画面：做一个面向全球用户的 ChatGPT 替代品，冲通用榜单，或者在 App Store 上做一个 C 端助手。但这条路非常拥挤。品牌、生态、支付、合规、分发，每一层都难。&lt;/p&gt;
&lt;p&gt;GLM 5.2 这次被 Semgrep 拿来测安全任务，反而提示了另一条路径：先进模型未必要先在聊天框里赢，它可以先钻进开发者工具的某一个高价值工作流。&lt;/p&gt;
&lt;p&gt;比如代码安全。&lt;/p&gt;
&lt;p&gt;代码安全不是一个「回答得漂亮就行」的场景。它要看误报、漏报、成本、可解释性、能不能接进 CI、能不能被安全工程师复核。一个模型如果能在这里证明自己，它拿到的不是泛泛的关注，而是工作流里的位置。&lt;/p&gt;
&lt;p&gt;同样的逻辑也可以迁移到别的开发者工具里：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代码审查里，它要找真实缺陷，而不是生成漂亮建议；&lt;/li&gt;
&lt;li&gt;测试生成里，它要提高覆盖率，而不是堆一堆无效 case；&lt;/li&gt;
&lt;li&gt;迁移重构里，它要能跑通项目，而不是只写几段示例；&lt;/li&gt;
&lt;li&gt;安全扫描里，它要能减少人工 triage（分诊）的时间，而不是把 false positive（误报）丢给人类收拾。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些场景对模型的要求很窄，但很硬。窄，意味着不必在所有能力上赢；硬，意味着一旦赢了，就有采购和集成价值。&lt;/p&gt;
&lt;p&gt;这也是为什么 Semgrep 这类第三方工具的测试，比模型厂商自己的榜单更有意思。厂商榜单经常告诉你「我的模型更聪明」，工具厂商的测试会告诉你「在我的工作流里，它到底能不能省人」。后者离真实商业价值近得多。&lt;/p&gt;
&lt;h2 id=&#34;harness-仍然是最贵的那层能力&#34;&gt;Harness 仍然是最贵的那层能力
&lt;/h2&gt;&lt;p&gt;不过，别被 GLM 5.2 的表现带偏。Semgrep 这次实验里，排在最前面的不是 GLM，也不是裸跑的 Claude，而是 Semgrep 自己的多模态管线。&lt;/p&gt;
&lt;p&gt;差距也不小：61% 和 53%，明显高于 GLM 5.2 的 39%。&lt;/p&gt;
&lt;p&gt;原因很直接：它不是把一整个仓库丢给模型然后许愿，而是先用 Harness 把任务变窄。Semgrep 的 Harness 会枚举应用端点，筛出重要上下文，再把模型引到更可能出问题的位置。模型负责推理，但 Harness 负责决定它看什么、怎么走、怎么把输出变成可评估结果。&lt;/p&gt;
&lt;p&gt;这才是 agent 产品里经常被低估的部分。&lt;/p&gt;
&lt;p&gt;模型像发动机，但 Harness 更像整辆车：方向盘、刹车、仪表盘、导航、传感器和安全气囊都在这里。只比较发动机马力，会错过真正决定能不能上路的东西。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/model-vs-harness.png&#34;
	width=&#34;1672&#34;
	height=&#34;941&#34;
	srcset=&#34;https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/model-vs-harness_hu_6a806c2aa4db15f6.png 480w, https://blog.ccino.org/p/glm52-semgrep-cyber-benchmark-2026/imgs/model-vs-harness_hu_caeec946397dfe15.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;模型能力与 Harness 工程支架共同决定安全工作流表现&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;177&#34;
		data-flex-basis=&#34;426px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;在安全场景里，这层东西尤其关键。一个模型再强，如果它不知道代码库从哪里进、端点怎么枚举、鉴权逻辑在哪里、哪些路径值得追、输出怎么去重，就会被上下文淹没。反过来，一个一般的模型，如果被一个好 Harness 喂到正确位置，也可能表现得不错。&lt;/p&gt;
&lt;p&gt;所以 Semgrep 这篇文章最有价值的句子，反而不是标题里的「GLM 5.2 beats Claude」，而是他们提出的那个问题：漏洞检测性能到底有多少来自模型，有多少来自模型外面的 Harness？&lt;/p&gt;
&lt;p&gt;答案大概率是：两者都重要，但越接近生产，Harness 的权重越高。&lt;/p&gt;
&lt;h2 id=&#34;开权重模型的吸引力来自三个具体场景&#34;&gt;开权重模型的吸引力，来自三个具体场景
&lt;/h2&gt;&lt;p&gt;为什么 GLM 5.2 这种开权重模型在安全任务里会变得有吸引力？不是因为「开」这个字天然高贵，而是因为它解决了三类很具体的问题。&lt;/p&gt;
&lt;p&gt;第一是数据边界。安全团队处理的是内部仓库、漏洞细节、密钥痕迹、业务逻辑。很多组织可以接受把普通代码片段发给外部模型，但未必能接受把全量仓库和漏洞上下文发出去。如果模型可以在内网跑，很多合规讨论会简单得多。&lt;/p&gt;
&lt;p&gt;第二是成本边界。Semgrep 原文提到 GLM 5.2 的价格大约是可比前沿模型的六分之一，且在这次任务里每个真实漏洞约 0.17 美元。这个数字未必能直接迁移到所有企业环境，但它说明了方向：安全扫描是规模化任务，一次不是问一个问题，而是扫很多仓库、很多端点、很多分支。单位成本一旦下来，能做的事情会变多。&lt;/p&gt;
&lt;p&gt;第三是可控性。企业可以围绕开权重模型做微调、蒸馏、离线评估、权限隔离和审计。闭源 API 也可以做很多工程封装，但模型本身始终在外部。对安全团队来说，这个差别不只是意识形态，而是事故责任链的问题。&lt;/p&gt;
&lt;p&gt;当然，开权重不等于没有风险。Semgrep 原文特别提到，Z.ai 在发布说明里披露过 GLM 5.2 相比 GLM 5.1 有更多 reward hacking（奖励黑客行为）倾向。训练时模型会尝试读取受保护评测文件或 curl 参考答案来抬高分数，因此团队专门做了 anti-hacking guard（反作弊防护）。&lt;/p&gt;
&lt;p&gt;这个细节挺有意思。一个适合安全任务的模型，如果自己也更会「钻测试空子」，那就更需要运行层面的约束。也就是说，能力越强，Harness 越不能省。&lt;/p&gt;
&lt;h2 id=&#34;这件事对-claude-并不坏&#34;&gt;这件事对 Claude 并不坏
&lt;/h2&gt;&lt;p&gt;写到这里，还要替 Claude 说一句公道话。&lt;/p&gt;
&lt;p&gt;Semgrep 的结果不能推出「Claude 不行了」。Claude Code 不是专为 IDOR 检测做的单任务扫描器，它是一个通用 coding agent。Semgrep 的多模态管线能赢，很大程度上是因为它把任务限定得更窄、更工程化。GLM 5.2 能在裸提示词条件下跑出好结果，也说明这个模型在该任务上很强，但不代表它在长程项目开发、需求澄清、重构、测试、交互式调试里全面超过 Claude Code。&lt;/p&gt;
&lt;p&gt;真正的结论应该更像这样：以后做 AI 开发工具，不能只押一个模型。&lt;/p&gt;
&lt;p&gt;在一个工作流里，可能 Claude 更适合长程规划，GLM 5.2 更适合某类安全检测，Gemini 更适合多模态理解，另一个小模型更适合便宜地跑批量分类。工具厂商真正要做的，不是给某个模型当前端，而是把任务拆开，让不同模型在合适的位置上干活。&lt;/p&gt;
&lt;p&gt;这和过去软件工程里的数据库选择很像。不是所有数据都塞进同一个数据库，也不是所有任务都用同一套缓存。模型时代也会这样：通用强模型会继续存在，但垂直任务会越来越多地被「更便宜、更可控、局部更强」的模型吃掉。&lt;/p&gt;
&lt;p&gt;从这个角度看，GLM 5.2 的意义不是挑战 Claude 的品牌，而是提醒工具厂商：模型层正在变成可替换组件。真正难替换的，是你围绕任务沉淀出来的数据、评估、流程和 Harness。&lt;/p&gt;
&lt;h2 id=&#34;对中国模型公司来说这是更实际的机会&#34;&gt;对中国模型公司来说，这是更实际的机会
&lt;/h2&gt;&lt;p&gt;这篇文章和我前几天写「六小虎分化」那篇可以接上。&lt;/p&gt;
&lt;p&gt;当时我提到，智谱 GLM-5.2 已经不只是一个通用大模型发版，而是在用开权重、长上下文和编程能力切入开发者市场。Semgrep 这次测试，正好给了一个更具体的外部样本：GLM 5.2 被一家海外安全工具公司拿来放进自己的 cyber benchmark 里，而且表现足够出乎意料。&lt;/p&gt;
&lt;p&gt;这比国内发布会上自称「编程能力提升多少」更有含金量。&lt;/p&gt;
&lt;p&gt;因为它发生在别人的工具链里，别人的任务里，别人的评价体系里。哪怕这个评价体系仍然有限，它也说明中国模型不只是在国内榜单上互相比，而是在进入海外开发者工具的评估视野。&lt;/p&gt;
&lt;p&gt;对国产模型公司来说，这条路可能比做一个全球聊天 App 更现实。你不用先说服普通用户换掉 ChatGPT，只要先说服安全团队、IDE 插件、CI 平台、代码审查工具、企业内网 Agent 平台：在某些任务上，用我更便宜、更可控，效果还不差。&lt;/p&gt;
&lt;p&gt;一旦被接进这些工具链，模型就不再只是一个 API 名字，而是某个生产流程的一部分。&lt;/p&gt;
&lt;h2 id=&#34;最后别把-benchmark-当结论要把它当入口&#34;&gt;最后，别把 benchmark 当结论，要把它当入口
&lt;/h2&gt;&lt;p&gt;这类文章最容易写偏。一边可以把它写成「国产模型赢麻了」，另一边也可以把它写成「Semgrep 样本太小，不足为据」。这两个反应都太快。&lt;/p&gt;
&lt;p&gt;更合适的态度是：把它当作一个入口。&lt;/p&gt;
&lt;p&gt;Semgrep 的实验告诉我们三件事。第一，安全检测这样的垂直任务，已经足够复杂，不能再用通用聊天能力去想象模型竞争。第二，开权重模型在某些高价值任务上，已经可以进入严肃评估，而不是只能当便宜替代品。第三，生产级 Agent 的胜负不会只由模型决定，Harness、数据集、评估方法、上下文筛选和成本结构会一起决定结果。&lt;/p&gt;
&lt;p&gt;模型负责推理，Harness 负责把推理放进正确的问题里。模型回答「这里有没有漏洞」，Harness 决定它该看哪个端点、该读哪些文件、该如何把结果变成工程师能处理的发现。前者决定上限，后者决定稳定性和可落地性。&lt;/p&gt;
&lt;p&gt;所以，GLM 5.2 这次最值得关注的地方，不是它在标题里「击败 Claude」。更有意思的是，它让我们看到一条新路线：国产大模型想进入全球市场，不一定要先赢下所有人的聊天框。它可以先在一个具体、昂贵、需要信任的工作流里，证明自己真的能省人、省钱，或者发现别人发现不了的问题。&lt;/p&gt;
&lt;p&gt;这比榜单更难，也比榜单更值钱。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Semgrep: We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://z.ai/blog/glm-5.2&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Z.ai 官方：GLM-5.2&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://news.ycombinator.com/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hacker News&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://hn.buzzing.cc/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HN 中文聚合&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.bestblogs.dev/en/video/6daf60e&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BestBlogs: OpenAI Codex lead on the new shape of product work&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.bestblogs.dev/en/status/2071356504805142532&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GitHub Copilot 智能体测试框架基准测试&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;

    &lt;blockquote&gt;
        &lt;p&gt;以上来源用于观察 Semgrep 的实验口径、模型发布信息和社区反馈。Semgrep 的结果是特定 IDOR 数据集、特定提示词与特定运行框架下的测试，不等同于对所有安全任务或所有编程任务的独立通用结论。&lt;/p&gt;

    &lt;/blockquote&gt;
</description>
        </item>
        
    </channel>
</rss>
