Notes

这里整理较长的技术笔记、论文精读和可独立访问的学习资源。列表统一在站内 Notes 页面管理,按最近更新时间倒序排列。

93 · 每页 10 条

默认排序:最近更新优先;分类筛选和搜索会保留这个倒序。

2026-06-08 · Paper Note · single HTML note · X post + arXiv paper + GitHub + HF dataset

MMAE:音频编辑从“能生成”到“能精修”的评测分水岭

深度解读 Tencent Hunyuan 发布的 MMAE: A Massive Multitask Audio Editing Benchmark:解释为什么指令式音频编辑不同于普通音频生成,MMAE 如何用 2,000 个样本、17,741 条 rubric、7 类模态、6 类复杂度和 8 类操作构建评测,并分析当前模型 EMR 低于 5% 背后的结构性瓶颈、planner 局限与下一代音频编辑系统设计方向。

MMAE Audio Editing Audio Generation Benchmark Rubric Evaluation Tencent Hunyuan Multimodal Audio Model-as-Judge
2026-06-08 · Tech Analysis · single HTML note · X post + arXiv paper + AutoLab site + GitHub

AutoLab:长时程 Agent 的胜负手不是第一拍,而是闭环控制

从 Rohan Paul 的 X 帖深入到 AutoLab 论文、官网、代码仓库与公开轨迹子样本:解释这个 benchmark 真正测到的不是励志意义上的 persistence,而是长时程 agent 在固定预算下管理 benchmark、反馈吸收、best-so-far 状态、收尾纪律与 harness 的闭环控制能力;并对比 RE-Bench、AIRS-Bench、KernelBench,厘清 AutoLab 的定位与边界。

AutoLab Long-Horizon Agents Closed-Loop Optimization Agent Evaluation Harness Benchmark Research Agents
2026-06-08 · Tech Analysis · single HTML note · X Article + Zhihu + RL infra references

Prime Intellect 视角下的 RL 后训练 32 答:vivek_2332 的算法/Infra 双向工程笔记

深度解读 @vivek_2332 对 sheriyuo 35 道 RL Interview Questions 2026 的 32 答长帖:把算法 16 题与 Infra 16 题按 Prime Intellect 工业视角重排为 6 层技术栈地图,涵盖 Actor-Critic 显存预算、GRPO 变体横向对比、KL 去留的工程含义、能力边界判断、OPD 的 on-policy 关键、DPO 的 backdoor、trainer-inference 数值一致性的 5 个来源、fp8/int8 选择、vLLM/SGLang 调度、PP 不推荐、staleness 1-4 步量级,以及 Prime-RL/verl/TRL/AReaL 框架差异在三大瓶颈(staleness/mismatch/IO)上的具体处理。

LLM RL GRPO Family PPO Clipping KL Regularization OPD DPO Reward Hacking MoE Routing Quantization fp8 int8 Continuous Batching vLLM SGLang Async RL Staleness Prime Intellect AReaL verl TRL MoE
2026-06-08 · Paper Note · single HTML note · X post + arXiv paper + project page

RAGEN-2:Entropy 没塌,不代表 Agent 还在看输入

深度解读 RAGEN-2: Reasoning Collapse in Agentic RL:解释为什么 token-level entropy 只能看到同一输入下的表面多样性,无法发现跨输入的 template collapse;拆解 mutual information proxy、in-batch cross-scoring、reward variance / SNR 机制、SNR-Aware Filtering 的实验收益与工程边界。

RAGEN-2 Agentic RL Template Collapse Mutual Information Reward Variance SNR-Aware Filtering Reasoning
2026-06-08 · Tech Analysis

RL Interview Questions 2026:从面经到 LLM/Agentic RL 全栈能力地图

深度解读 sheriyuo 的 RL Interview Questions 2026 / 2026 年 RL 方向面经合集:把 35 道算法与 Infra 问题拆成 LLM RL / Agentic RL 的能力地图,覆盖 PPO/GRPO、DAPO/GSPO/CISPO、OPD、reward、rollout、KV cache、MoE、异步训练、staleness 与 VeRL/AReaL/slime 选型。

RL Interview LLM RL Agentic RL GRPO PPO RL Infrastructure Async RL
2026-06-08 · Tech Analysis · single HTML note · Why We Think + Lil’Log full archive

Lilian Weng《Why We Think》与 Lil’Log 全谱系解读

深度解读 Lilian Weng 的《Why We Think》:把 test-time compute、CoT、parallel/sequential search、RL reasoning、CoT faithfulness、continuous latent thinking、latent-variable view 与 thinking-time scaling 串成统一框架;并横向分析 Lil’Log 2017-2025 年 50 篇技术博客的主题迁移、写作方法论和阅读路线。

Lilian Weng Test-Time Compute Chain of Thought Reasoning Models Reward Hacking LLM Agents Blog Map
2026-06-08 · Paper Note · single HTML note · X post + arXiv paper + project page + GitHub

Self-Trained Verification:把“带答案时会挑错”蒸馏成可用 verifier

深度解读 Chen Henry Wu 与 Aditi Raghunathan 的 Self-Trained Verification:解释为什么 reasoning self-improvement 的瓶颈是 verifier,STV 如何把 reference-conditioned teacher 蒸馏成不看答案的 verifier,以及 ViL 如何用诊断反馈突破标准 RLVR plateau;同时梳理 hard math、SciKnowEval、weak-to-strong verifier、reward hacking 和开放式任务迁移边界。

Self-Trained Verification Verifier RLVR On-policy Distillation Test-time Compute Reasoning Self-Improvement
2026-06-08 · Tech Analysis · single HTML note · X post + Substack + arXiv papers

GRPO++:让 RLVR 真正跑起来的后训练工程手册

深度解读 @neural_avb 推荐的 Cameron R. Wolfe《GRPO++: Tricks for Making RL Actually Work》:从 PPO/GRPO 基础出发,系统梳理 vanilla GRPO 的 reward noise、entropy collapse、长度偏置、zero-gradient prompts 与 sampler-learner off-policy gap,并解释 DAPO、Dr. GRPO、TIS、GSPO、GMPO、CISPO 分别在修哪一层后训练工程问题。

GRPO RLVR Post-training Reasoning Models DAPO Dr. GRPO TIS GSPO
2026-06-04 · Tech Analysis · single HTML note · arXiv + W&B report + X thread

Fantastic Pretraining Optimizers and Where to Find Them:一次 optimizer benchmark 的清算

深度解读 Kaiyue Wen 等人的工作,结合原论文、W&B 详尽实验报告和 GitHub 实验索引,解释为什么很多 1.4–2× optimizer speedup claim 是弱 baseline 和 unfair benchmark 造成的幻觉,以及 matrix-based optimizer 在公平比较下的真实边界。

Optimizer Pretraining AdamW Muon SOAP Scaling Law Benchmark Hygiene
2026-06-03 · Tech Analysis · single HTML note · MAI-Base-1 architecture + literature survey

LLM Infra 设计谱系:从 attention 到 MoE 再到 FP8

从 MAI-Base-1 的架构表出发,调研 local/global attention、GQA/MQA、top-k MoE、LatentMoE、dropless routing、zero-init attention output、FP8 E4M3/E5M2 等 infra 术语背后的技术动机、演进轨迹、代表工作和关键结论:这些设计共同服务于 attention FLOPs、KV cache、all-to-all、router imbalance、GEMM shape、数值稳定和 goodput 的预算化。

LLM Infrastructure Attention GQA Mixture of Experts FP8 Distributed Training
2026-06-03 · Tech Analysis · single HTML note · Microsoft technical report PDF

MAI-Thinking-1:微软如何把模型研发做成 Hill-Climbing Machine

深度分析 Microsoft AI 技术报告《MAI-Thinking-1: Building a Hill-Climbing Machine》:解释 35B active / 1T total MoE、30T token 预训练、scaling-aware data mixture、NLL suite、dropless MoE、zero-init attention、GRPO-style RL、self-distillation recovery、agentic SWE 环境、安全 gated reward、YOLO/Rocket 基础设施和 8K GB200 goodput 背后的系统性模型研发范式;并本地化所有编号 Figure/Table 所在页面作为图表证据索引。

MAI-Thinking-1 Microsoft AI Hill-Climbing Machine MoE Reasoning Model RL Post-training LLM Infrastructure
2026-06-03 · Paper Note · single HTML note · X thread + arXiv paper

OmniOPD:用语义 chunk 验证绕开 teacher logits

深度解读 Zhuokai Zhao 关于 OmniOPD 的 X 原帖、前序 OPD 脆弱性长帖和 arXiv 2606.01476:解释标准 OPD 为什么受限于 teacher logits、tokenizer/style mismatch 和 fragile next-token overlap,以及 OmniOPD 如何用 peak-entropy chunk selection、teacher Monte Carlo rollouts、semantic similarity、Dirichlet-Multinomial prior 和 reference KL anchor 构造 logit-free on-policy distillation。

OmniOPD On-policy Distillation Logit-free Distillation Post-training Reasoning Black-box Teacher
2026-06-03 · Tech Analysis · single HTML note · X thread + arXiv/blog/report reading map

LLM RL at Scale:从 scaling law 到 agentic post-training 的阅读路线

深度解读 Cameron Wolfe / cwolferesearch 的 RL at scale X 书单:把 26 条论文、框架、agentic RL 与工业技术报告短链整理成一条后训练路线,解释为什么 LLM RL scaling 不能照搬预训练 scaling law,而必须同时处理 rollout 吞吐、policy freshness、importance sampling、reward/verifier 可靠性、agent 环境供应链和真实产品闭环。

RL at Scale Post-training Agentic RL Async RL RL Infrastructure Scaling Law
2026-06-03 · Tech Analysis · single HTML note · X post + Papers with Code + Phi-4 + arXiv

Mid-training:预训练和后训练之间真正发生了什么

深度解读 Niels Rogge 关于 mid-training 的 X 原帖与 Papers with Code 方法页:解释 mid-training 为什么不是简单的 post-training,而是把通用 base model 继续推向长上下文、领域知识、代码、数学或 agent 轨迹等目标能力分布的中间层;并用 Phi-4、distribution bridging、daVinci-Dev 和 Agentic CPT 说明它和 SFT、DPO、RL 的真实边界。

Mid-training Pretraining Post-training LLM Training Agentic Training Data Quality
2026-06-03 · Paper Note · single HTML note · X thread + arXiv paper

CAST:给 GRPO 补上 verifier-grounded 的 token 级信用分配

深度解读 @sheriyuo 关于 CAST / GRPO 的 X 原帖与 arXiv 2606.00172:解释 GRPO 在 all-correct / all-wrong zero-variance groups 上的死区,OPSD token preference 与 trajectory correctness 的错位,以及 CAST 如何用 answer-free self-teacher、asymmetric clipping、zero-variance base advantage 和 bidirectional advantage flipping 给 RLVR 训练补上 verifier-grounded 的 token 级信用分配。

CAST GRPO RLVR Self-Distillation Credit Assignment Post-training
2026-06-02 · Tech Analysis · single HTML note · X thread + GitHub + arXiv

A-Evolve:把 Agent Harness 变成可演化的工程对象

深度解读 A-Evolve 两篇论文与开源框架:拆解 Position Paper 的方法贡献(≈ 0 新算法)、Harness Updating ≠ Harness Benefit 作文的受控实验发现(evolver 强弱不重要,solver 能力才决定收益),并把 A-Evolve 放进 2023-2025 十种同类工作的坐标里,逐项审视每个卖点是否算创新。追加赛道全景对照表、7 项机制创新性评估、诚实总结。

A-Evolve Self-improving Agents Harness Evolution Agent Workspace SWE-bench
2026-06-02 · Tech Analysis · single HTML note · X Article + papers + serving docs

Speculative Decoding:投机解码的真实收益、校正采样与生产边界

深度解读 Mohit 的 X Article《Everything you need to know about Speculative Decoding Inference》:在“小模型先猜、大模型验收”的入门直觉之外,补齐 speculative sampling、modified rejection sampling、residual correction、lossless guarantee、draft model / EAGLE / Medusa / MTP / NGRAM 方法谱系,以及 SGLang/vLLM 生产部署中的 batch、KV cache、显存和采样边界。

Speculative Decoding LLM Inference Serving EAGLE Medusa vLLM SGLang
2026-06-02 · Paper Note · single HTML note · X thread + Substack + arXiv PDF

The Thinking Pixel:把 test-time compute 放进扩散模型 latent 层

深度解读 che_shr_cat 关于 The Thinking Pixel 的 X thread、作者 Substack 公开片段与 arXiv 2604.25299:解释 Recursive Sparse Reasoning 如何在 SD3 / DiT 的 joint attention 层内用 Mixture-of-Adapters、Gumbel-Softmax 路由和 LoRA 低秩专家给视觉 latent token 增加递归 test-time compute;同时校正 GenEval、DPG、ImageNet FID 与 FrozenLake 实验的证据边界。

Thinking Pixel Diffusion Model Test-Time Compute Mixture of Adapters Visual Latent Reasoning
2026-06-02 · Paper Note · single HTML note · X thread + arXiv paper + HF dataset + GitHub

RHELM:长期记忆评测为什么必须超越静态对话

深度解读 HuggingPapers 推荐的 Microsoft / Renmin University RHELM benchmark:解释为什么长期记忆评测不能停留在静态对话检索,而要覆盖动态 persona、LOOP 轨迹演化、邮件/附件/对话多源同步、misleading query、hallucination correction 与 cross-source aggregation;并分析 RAG、长上下文模型和 memory frameworks 在 RHELM 上暴露的统一记忆架构缺口。

RHELM Long-term Memory Memory Benchmark RAG Personal Assistant
2026-06-02 · Paper Note · single HTML note · X thread + arXiv paper + GitHub + HF

LongTraceRL:用搜索轨迹和实体级 rubric 训练 128K 长上下文推理

深度解读 HuggingPapers 推荐的 LongTraceRL:解释为什么长上下文 RLVR 不能只靠随机 distractor 和 outcome-only reward,LongTraceRL 如何用 Wikipedia KG random walk 生成 8-hop 问题、用 search agent trajectories 抽取 Tier-1/Tier-2 hard distractors,并用 positive-only entity-level rubric reward 在 128K context 上训练证据接地推理;同时梳理 4B/8B/30B 实验、rubric/distractor ablation、公开模型和数据集边界。

LongTraceRL Long Context RLVR Rubric Reward Search Agent
2026-06-02 · Tech Analysis · single HTML note · X thread + slide deck + GitHub

Agentic RL 的 rollout 层:从 Agent Loop 到 Agent Environment

深度解读 Yuan He 关于 multi-turn RL rollouts 的 X 主帖、From Agent Loops to Agent Environments slide deck、strands-env 与 strands-sglang:解释为什么 agentic RL 的第一问题不是 KL/GRPO 等算法,而是 rollout system 是否保持 token-faithful、strict tool parsing、termination taxonomy、train-inference match 与环境并发效率;并把 A2E 回复区链接作为 agent-to-environment 协议层对照。

Agentic RL Rollout System Agent Environment Strands Env Strands SGLang
2026-06-02 · Paper Note · single HTML note · X thread + arXiv paper

TRB:把 OPD 的早期采样问题改写成受约束的教师引导

深度解读 Trust-Region Behavior Blending for On-Policy Distillation:解释 OPD 为什么会卡在 early student rollout,TRB 如何用 student-centered KL trust region 临时构造接近 teacher 的 behavior policy,并在 warmup 后退火回纯 student rollout;同时分析 Qwen3 数学蒸馏实验中 0.4-0.9 pass@1 平均提升的证据边界。

TRB On-policy Distillation Trust Region Warmup Reasoning
2026-06-02 · Tech Analysis · single HTML note · 102 rounds / 241 tweets / 10 topics

X 推文周期抓取:AI 研究动态 102 轮选 24 条

SheSheBot x-tweet-digest 流水线 24 小时内 102 轮(每 15 分钟)抓取的精选版:241 条独立推文覆盖 audio LM / multimodal / agent / harness / RL / reward / agentic 7 个方向,10 个主题均衡。报告拆解 Physical AI / Omnimodal(NVIDIA Cosmos 3)、Multimodal Agent(Step 3.7 Flash、Qwen3.7-Plus、MiniMax M3)、Agentic RL & Reward(Kimi subagent RL、Harnessy、Repo2RLEnv)、Speech LLM(OpenAI gpt-realtime-translate、AA-WER Streaming、Tencent 通用 audio tokenizer)四条产业主线,并解释 opencli twitter search + seen_ids 去重 + 主题轮换的工程实现。

X Tweet Digest Periodic Fetching Audio LM Multimodal Agent Agentic RL Harness Reward Model
2026-06-02 · Tech Analysis · single HTML note · X thread + author blog

Async RL 是否已解决:policy lag、IS 偏差与后训练系统边界

深度解读 Luke J. Huang 关于 frontier asynchronous RL 的 X thread 与长文:解释异步 RL 如何用 rollout/training 解耦换取 2-3x 吞吐,又如何因 policy lag 产生 stale trajectory 和 off-policy instability;梳理 TIS/CISPO、MIS/IcePop、DeepSeek masking、M2PO、MoE routing replay、batch-invariant kernels、FP32 LM head、fast weight sync 等修补手段,并分析 sequence-level IS、token-level IS 与低偏差 compute scaling hypothesis 的工程边界。

Async RL Policy Lag Post-training Importance Sampling RL Infrastructure
2026-05-30 · Paper Note · single HTML note · X thread + arXiv paper + GitHub + HF

BES:把搜索从同分布采样推进到目标反推与轨迹重组

深度解读 Kevin Guowei Xu 关于 BES 的 X 线程、arXiv 2605.28814、GitHub 仓库和 Hugging Face 模型集合:解释 Bidirectional Evolutionary Search 如何用 backward goal decomposition 把稀疏终局奖励变成子目标覆盖信号,并用 combination、deletion、translocation、crossover 重组不同错误轨迹里的局部正确片段,分析其在 post-training、multi-hop agent 和 open problem solving 中的证据与边界。

BES Bidirectional Search Evolutionary Search Post-training Test-Time Search
2026-05-28 · Tech Analysis · single HTML note · X thread + arXiv papers

Self-Distillation 的两面性:World-Bayesian 与 Self-Bayesian 推理

深度解读 Jeonghye Kim 关于 MSRA 实习研究线的 X 线程:解释为什么 self-distillation 在 long-horizon agent 任务里像外部世界经验压缩,却在数学和纯内部推理里可能压制 epistemic verbalization,并串联 EMPO²、Strategic Information Allocation、Self-Distillation Degradation 与 Rebellious Student/RLRT 四篇工作。

Self-Distillation LLM Reasoning Post-training RLVR Epistemic Verbalization
2026-05-28 · Paper Note · single HTML note · X thread + arXiv paper

Self-Verified Distillation:模型如何把自验证变成后训练数据引擎

深度解读 Tony Lee 与 Percy Liang 的 Self-Verified Distillation 论文和 X thread:解释模型如何从无标签 seed questions 出发,用自生成候选解、UQ 风格多阶段自验证和 SFT 构造 post-training 数据,并分析 generator-validator consistency、UQ-TTC 168 次推理成本、Qwen3 多规模实验收益和自验证边界。

Self-Verified Distillation Self-Training Post-training Verification Reasoning
2026-05-28 · Paper Note · single HTML note · X thread + arXiv paper + GitHub

LRPO:把语言选择变成多语言后训练的可学习变量

深度解读 CherylolGuo 关于 LRPO 的 X 线程、arXiv 2605.25360 和官方 GitHub README:解释为什么知识不是均匀分布在语言中,LRPO 如何把 rollout language 作为可学习变量,用 language router、跨语言 reward calibration 和语言一致性奖励改进多语言 policy optimization,并分析其对多语言 RAG、国际化 agent 和 reward 设计的工程启发。

LRPO Multilingual RL Policy Optimization Language Routing Reward Calibration
2026-05-28 · Tech Analysis · single HTML note · X Article + LAB materials

Harvey/Baseten:开放法律 Agent 后训练路线

深度解读 Gabe Pereyra 关于 Harvey 与 Baseten Research 的开放法律 Agent 后训练文章:解释 LAB 如何从法律 agent benchmark 变成可训练环境,为什么 read-heavy 行为、compaction harness、iSFT 和 rubric-passing trajectories 共同构成垂直 agent 后训练闭环,并分析外部复现、rubric reward、private-mode submit 与 KV cache compaction 的边界。

Legal Agent Post-training Harvey LAB Baseten Research Compaction
2026-05-28 · Tech Analysis · single HTML note · X thread + official blog + GitHub

Orbit:把万亿模型 RL 后训练改写成部署一致性问题

深度解读 Besteuler 关于 Orbit 的 X 帖、SphereLab 英文博客、GitHub 仓库和 rollout 架构补充页:解释为什么 Orbit 的关键不是单点 OFT,而是 frozen low-precision base、BF16 adapter、deployment-aligned RL、adapter-native async 和 double-buffered rollout 共同降低万亿模型后训练的显存、权重同步与 train-rollout gap。

Orbit RL Post-training OFT PEFT LLM Infrastructure
2026-05-27 · Tech Analysis · single HTML note · X thread + project materials

CUA-Gym:Computer-Use Agent 的 RLVR 数据基础设施

深度分析 Bowen Wang 关于 CUA-Gym 的 X 线程、论文页、项目主页、Hugging Face 数据集与 GitHub 仓库:解释为什么 Computer-Use Agent 的 RLVR 瓶颈在可复位、可检查、可程序化奖励的数据环境,而不只是算法;同时梳理 setup-gen / reward-gen / orchestrator 闭环、CUA-Gym-Hub 状态 API、OSWorld / WebArena 结果和当前发布材料中的数字差异。

Computer-Use Agent RLVR CUA-Gym OSWorld WebArena
2026-05-27 · Tech Analysis · single HTML note · X thread + Notion blog

KPop:用自适应 Mask 稳住 Agentic RL 的训练-推理错配

深度解读 Jia Guo 关于 KPop 的 X 主帖与 Notion 博客:解释为什么大规模 MoE / agentic RL 会出现 training-inference mismatch,IcePop 固定 ratio mask 为什么失效,以及 KPop 如何用 symmetric binary KL 构造 token-level hard trust region,让 Ring-2.6-1T 的 SWE agentic RL 在作者报告中从 70.8% 提升到 76.28%。

Agentic RL MoE Training-Inference Mismatch KPop SWE-bench
2026-05-27 · Paper Note · single HTML note · X thread + Ai2 paper

Cracks in the Foundation:长上下文扩展为什么会被小架构选择击穿

深度解读 Gabriele Berton 关于 OlmPool 的 X 主帖与 Ai2 论文:为什么 QK norm、GQA、sliding window attention 和预训练上下文长度这些看似局部的架构选择,会在 context extension 中复合放大,导致长上下文 benchmark 表现最多下降约 47%。

Long Context LLM Architecture Attention Context Extension OlmPool
2026-05-26 · Study Resource · single HTML note · reading map

Hwcoder 算法笔记体系读书笔记

把 Hwcoder 算法笔记分类中的 23 篇算法入门、力扣刷题和手撕经典算法内容整理成一份站内读书笔记:按基础工具、刷题题型、通用模板、深度学习手写组件和复习路线重构,保留完整源笔记清单与阅读定位。

Algorithm LeetCode Manual Coding Dynamic Programming Transformer
2026-05-26 · Paper Note · single HTML note · arXiv paper + project page

SkillEvolBench 深度解读:从一次性经验到可复用程序性技能

深度解读 arXiv 2605.24117 与项目主页:SkillEvolBench 如何用 6 个真实 agent 环境、180 个任务、acquisition/deployment/replay 协议和 Raw-Trajectory control 评估 agent 能否把 episodic trajectory 演化为 reusable procedural skill,并分析当前 skill abstraction 为什么经常输给原始轨迹复用。

Agent Skills Skill Evolution Experience Reuse Agent Evaluation Procedural Memory
2026-05-25 · Tech Analysis · single HTML note · X thread + arXiv paper

Shannon Scaling Law 与 Token Noise 极限解读

深度解读 rosinality 对《LLMs as Noisy Channels》的评论:为什么 token noise exponent 大于 signal exponent 会让继续加 tokens 的单调收益失效,以及 Shannon Scaling Law 如何用 SNR、loss basin 和外推实验解释过训练、量化与 SFT 扰动。

Scaling Laws Shannon LLM Training Data Quality X Thread
2026-05-25 · Paper Note · single HTML note · arXiv paper

RL Memory Agent 训练数据效应:Curriculum 如何塑造外部记忆问答能力

深度解读 arXiv 2605.23067:在 memory-augmented QA 中,LoCoMo、LongMemEval 与混合 curriculum 如何改变 RL Answer Agent 的细分技能 profile;同时梳理单 GPU GRPO 下 memory bank 清洗和 binary exact-match reward 方差塌缩的工程边界。

Agent Memory GRPO Curriculum Evaluation RL
2026-05-25 · Tech Analysis · single HTML note · X thread + paper + official blog

SaaS-Bench 解读:Computer-Use Agent 为什么还不是可靠的 SaaS 工作者

深度解读 @sheriyuo 关于 UniPat AI SaaS-Bench 的 X 帖、官方 blog 与 arXiv 论文:解释 23 个真实 SaaS 系统、106 个长程任务、Checkpoint Score 与 Resolved Score 的巨大落差,以及为什么当前 Computer-Use Agent 还缺少状态验证、跨应用依赖管理和错误恢复能力。

Computer-Use Agent SaaS-Bench Agent Evaluation Browser-Use Workflow Reliability
2026-05-25 · Tech Analysis · single HTML note · X Article + official blog

ZCube 推理网络架构解读:KV Cache 流量如何改变数据中心拓扑

深度解读 Z.ai 关于 ZCube 的 X Article 和官方博客:从一次 PD 请求链路、KV Cache 体积公式、ROFT/Fat-Tree 局部热点机制讲起,解释 ZCube 如何用扁平二部拓扑、单轨/多轨混合接入和路径分散降低 TTFT 慢尾,并给出可落地的集群诊断清单。

LLM Inference Datacenter Network KV Cache ZCube TTFT
2026-05-25 · Tech Analysis · single HTML note · X thread + arXiv paper

EqR 与 Neural Attractors:从 Feedforward 到 Iterative Reasoner

深度解读 Benhao Huang 关于 EqR 的 X side-post 与 arXiv 论文:解释 weight tying、segmented online training、hierarchy、ACT、RI/NI 如何共同塑造 neural attractor landscape,并区分 residual convergence 与真实 correctness 的边界。

EqR Iterative Reasoning Test-Time Scaling Neural Attractors X Thread
2026-05-25 · Tech Analysis · single HTML note · X thread + arXiv paper

Agentic Systems as Boosting Weak Reasoning Models 深度解读

深度解读 Grigory Sapunov 的 X 线程与 arXiv 2605.14163:为什么弱模型候选池里经常已有正确 patch,critic-comparator harness 如何回收 oracle best-of-k 暴露的 latent capability,以及 blind-spot floor 为什么限制 test-time boosting。

Agent Test-Time Scaling SWE-bench Verifier Boosting
2026-05-25 · Tech Analysis · single HTML note · X thread + survey paper

可信 Audio LLM Survey 深度解读

深度解读 HuggingPapers 推荐的 arXiv 2605.20266:Audio LLM 的可信问题为什么不是语音版文本安全,而是连续声学信号引入 hallucination、robustness、safety、privacy、fairness、authentication 六维风险。

Audio LLM Trustworthy AI Multimodal Safety Voice Privacy Evaluation
2026-05-25 · Tech Analysis · single HTML note · X thread + Cursor reports

Grok V9、Cursor 数据与 Mid-training 深度解读

深度梳理 Elie Bakouch 关于 Grok V9 的 X 帖:为什么 1.5T 模型、Cursor 数据、supplemental/mid-training 和 2-3 周 RL 发布窗口共同指向 coding agent 能力重心前移。

Grok Cursor Mid-training Coding Agent RL
2026-05-25 · Tech Analysis · single HTML note · X thread + paper

ZEDA:后训练 MoE 如何跳过一半专家计算

深度解读 Rohan Paul 关于 ZEDA 的 X 帖与论文《Post-Trained MoE Can Skip Half Experts via Self-Distillation》:解释 zero expert、自蒸馏、组级路由约束如何把已后训练 MoE 转成动态 MoE,并分析 50% expert FLOPs 削减、约 20% 推理加速和部署边界。

MoE Inference Efficiency Self-Distillation Dynamic Routing ZEDA
2026-05-25 · Tech Analysis · single HTML note · ICML 2026 poster

NITP:Next Implicit Token Prediction 技术解读

aHpaBean 关于 NITP 的 X 预告、ICML 2026 poster 与 GitHub README 深度解读:解释为什么 NTP 的 one-hot CE 可能欠约束 hidden geometry,NITP 如何用下一 token 的浅层表示作为辅助目标,以及它和 JEPA、distillation、Cut Cross-Entropy 的边界。

NITP Pre-training Representation Learning LLM X Thread
2026-05-25 · Tech Analysis · single HTML note · X Article + paper

Test-Time Scaling 与 Training-Free RL 深度解读

深度解读 Xiuyu Li 的 X Article:Test-Time Scaling 如何通过 reward-aware sampling 连接 KL 正则 RLHF、Power Sampling、ETS 与 Self-Evolving 路线。

Test-Time Scaling Training-Free RL ETS RLHF Inference
2026-05-25 · Tech Analysis · single HTML note · X thread + arXiv paper

VPO:为什么多样性训练会改善测试时搜索

深度解读 Ryan Boldi 关于 Vector Policy Optimization 的 X 线程与 arXiv 2605.22817:解释 VPO 如何用向量奖励、多答案链和集合级目标保留可搜索解空间,并分析它在 LiveCodeBench、OpenEvolve 和多目标奖励场景中的适用边界。

VPO Test-Time Search RL Diversity Vector Reward
2026-05-25 · Tech Analysis · single HTML note · X thread + official article

Applied Compute RMSD:把 OOD 企业行为拉回模型分布内

深度解读 Applied Compute 的 RMSD 线程与长文:解释 Relevance-Masked Self-Distillation 如何把自然语言 hint 转成 token-level 蒸馏信号,并通过 relevance mask 减少自蒸馏中的无关风格梯度噪声。

RMSD Self-Distillation Post-training Credit Assignment Enterprise LLM
2026-05-21 · Study Resource · single HTML note · source imported

手撕经典算法 #1 Attention 篇整理

把 Manual-Coding-1 的 Attention 手写内容整理成站内学习笔记,覆盖 SDPA、MHA、KV Cache、MQA、GQA 的张量形状、mask 边界、缓存语义和实现风险。

Attention Manual Coding Transformer PyTorch Inference
2026-05-20 · Tech Analysis · single HTML note

大模型测试的下半场:Agent 时代评测该测什么

Agent 时代大模型评测应该关注什么维度的深度分析。

Evaluation Agent LLM
2026-05-20 · Tech Analysis · single HTML note

rosinality X 帖与 Proxy Metrics 论文深读

rosinality X 帖与 Proxy Metrics 相关论文的深度阅读。

Metrics Evaluation X Thread
2026-05-20 · Tech Analysis · single HTML note

Delegation Intelligence:Agent 时代该如何重新理解评测

Agent 时代 Delegation Intelligence 评测范式的重新理解。

Agent Evaluation Delegation
2026-05-20 · Tech Analysis · single HTML note

GRPO 之后:Dense Credit Assignment 的下一步

GRPO 之后 Dense Credit Assignment 的下一步方向分析。

RL GRPO Credit Assignment
2026-05-20 · Tech Analysis · single HTML note

ECHO: Terminal Agents Learn World Models for Free

ECHO 终端 Agent 世界模型学习机制的 X Article 梳理。

Agent World Models Terminal
2026-05-20 · Tech Analysis · single HTML note

NanoGPT-Bench X 线程解读:Coding Agent 能做研究吗?

NanoGPT-Bench X 线程深度解读,探讨 Coding Agent 的研究能力边界。

Agent Coding Benchmark
2026-05-20 · Tech Analysis · single HTML note

Mid-training/RL 数据重叠会伤害 RL 吗?

Mid-training 和 RL 阶段数据重叠对 RL 效果的影响分析。

RL Data Overlap Training
2026-05-19 · Tech Analysis · single HTML note

推特大模型动态日报 | 2026-05-19

Twitter/X 上大模型相关动态的每日精选汇总。

Twitter LLM Daily Digest
2026-05-19 · Study Resource · 20 chapters · 130+ worked examples

数学基础速修手册

一本零基础友好的数学复习手册,围绕微积分、线性代数、概率统计组织 20 个章节,用概念起点、公式读法、完整例题、反例边界、算法流程和 LLM/Quant 应用链路帮助重新建立知识结构。

Mathematics Review Calculus Linear Algebra Probability Quant
2026-05-18 · Tech Analysis · single HTML note

Lilian Weng: System Accidents 解读

Lilian Weng 系统事故分析经典博客解读。

System Design Safety Blog
2026-05-18 · Tech Analysis · single HTML note

Memento / KV Cache X 帖深度解读

Memento KV Cache 优化技术的 X 帖深度讨论。

KV Cache Efficiency LLM Inference
2026-05-18 · Tech Analysis · single HTML note

MEMENTO 深度解读:教 LLM 管理自己的上下文

LLM 上下文管理机制的深度分析。

Context Management LLM Memory
2026-05-15 · Paper Note · single HTML note

SEIF 论文与 X 帖深度分析

SEIF 指令遵循相关研究的深度分析。

Instruction Following Alignment LLM
2026-05-15 · Paper Note · single HTML note

Prime Intellect autonomous nanoGPT speedrun 解读

Prime Intellect autonomous nanoGPT speedrun 深度解读。

nanoGPT Autonomous Training
2026-05-15 · Paper Note · single HTML note

168X / Herman Jin 半导体访谈深读

168X Herman Jin 半导体行业访谈的深度阅读分析。

Semiconductor Industry Interview
2026-05-15 · Paper Note · single HTML note

RESD X 线程与论文解读

RESD X 线程与论文的深度阅读分析。

RESD X Thread Paper
2026-05-15 · Paper Note · single HTML note

AVB OPD / OPSD 资源帖深度解读

AVB OPD / OPSD 资源帖的深度阅读分析。

Resources OPD Analysis
2026-05-15 · Paper Note · single HTML note

Fast-Slow Training X Thread Analysis

Fast-Slow Training X 线程的深度分析。

Training Efficiency X Thread
2026-05-15 · Paper Note · single HTML note

G-Zero X 线程与论文深读

G-Zero Self-Play 开放生成 X 线程与论文深度阅读。

Self-Play Generation X Thread
2026-05-15 · Paper Note · single HTML note

TencentDB Agent Memory 推文与开源项目分析

TencentDB Agent Memory 推文与开源项目的深度分析。

Agent Memory Tencent
2026-05-15 · Paper Note · single HTML note

RELEX / Minimal RLVR Training 深度解读

RELEX Minimal RLVR Training 的深度解读。

RLVR Training X Thread
2026-05-15 · Paper Note · single HTML note

Reward Hacking in Rubric-Based RL:X 线程与论文深读

Rubric-Based RL 中 Reward Hacking 问题的 X 线程与论文深读。

RL Reward Hacking Rubric
2026-05-15 · Paper Note · single HTML note

Dr. Post-Training 推文与论文深读

Dr. Post-Training 推文与相关论文的深度阅读。

Post-training RL LLM
2026-05-15 · Paper Note · single HTML note

Harbor 与 RL Coding Environments 长文梳理

Harbor RL Coding Environments 的长文梳理。

RL Coding Environment
2026-05-15 · Paper Note · single HTML note

KLieret X 线程解读:GPT 5.5 首次解出 ProgramBench 实例

GPT 5.5 首次解出 ProgramBench 实例的 X 线程解读。

GPT Benchmark ProgramBench
2026-05-15 · Paper Note · single HTML note

Agents Need Feedback Loops 阅读分析

Agents Need Feedback Loops 相关内容的阅读分析。

Agent Feedback Loops Prompts
2026-05-15 · Paper Note · single HTML note

ACuRL X 线程与论文解读:Computer-use Agent 的自主持续学习

ACuRL Computer-use Agent 自主持续学习的 X 线程与论文解读。

Agent Computer Use Continual Learning
2026-05-15 · Paper Note · single HTML note

SWE-ZERO-12M Trajectories X 帖深度解读

SWE-ZERO-12M Trajectories X 帖深度解读。

SWE Trajectories X Thread
2026-05-15 · Paper Note · single HTML note

LongMemEval-V2 深度解读:Agent Memory 如何走向有经验的同事

LongMemEval-V2 Agent Memory 评估框架深度解读。

Agent Memory Evaluation
2026-05-15 · Paper Note · single HTML note

Lighthouse Attention X 帖与论文深读

Lighthouse Attention X 帖与论文的深度阅读。

Attention Architecture X Thread
2026-05-15 · Paper Note · single HTML note

MMProLong / LongPT 深度解读

MMProLong / LongPT 长上下文 LVLM 的深度解读。

Long Context LVLM Multimodal
2026-05-15 · Paper Note · single HTML note

GMI Cloud 足球踢球动画 Thread 梳理

GMI Cloud 足球踢球动画空间推理 Thread 梳理。

Spatial Reasoning Animation X Thread
2026-05-13 · Study Resource · 90 chapters

大模型面试题库

按章节拆分的大模型面试题库,包含 90 个独立章节、筛选搜索、本地 SVG 导图和训练/推理/系统专项内容。

LLM Interview Systems Reasoning
2026-05-13 · Paper Note · single HTML note

Unmasking On-Policy Distillation

中文论文深读笔记,聚焦 on-policy distillation 为什么更像 token-level credit assignment,而不是全序列模仿。

Distillation RL Post-training
2026-05-13 · Tech Analysis · single HTML note

Artificial Analysis 语音 Agent 评测解读

Artificial Analysis τ-Voice 与 S2S 客服任务评测解读。

Voice Agent Evaluation S2S
2026-05-13 · Paper Note · single HTML note

Rebellious Student / RLRT 论文深读报告

RL 蒸馏与叛逆学生机制的论文精读。

Distillation RL Student Model
2026-05-13 · Paper Note · single HTML note

LCO-Embedding 论文深读报告

LCO-Embedding 方法的深入分析与解读。

Embedding Representation Learning
2026-05-13 · Tech Analysis · single HTML note

长周期 Agent、None-Person Company 与自我进化

Jie Tang X 帖深度解读,探讨长周期 Agent 与自我进化。

Agent Long-horizon Self-evolution
2026-05-12 · Paper Note · single HTML note

Synthetic Pre-Pre-Training Improves LM Robustness

合成数据预训练提升语言模型鲁棒性的深度解读。

Pre-training Synthetic Data Robustness
2026-05-12 · Paper Note · single HTML note

Visual Generation Unlocks Human-Like Reasoning

多模态世界模型与视觉生成推理的深度解读。

World Models Visual Generation Multimodal Reasoning
2026-05-12 · Paper Note · single HTML note

TRACE: Capability-Targeted Agentic Training

面向能力的 Agent 训练框架深度论文报告。

Agent Training Capability Targeting
2026-05-12 · Paper Note · single HTML note

OnlineRubrics 论文深读与 Insight

OnlineRubrics 在线评分标准的深度解读。

Evaluation Rubrics LLM
2026-05-12 · Tech Analysis · single HTML note

Nitrobrew 推文与技术解读

Nitrobrew Twitter/X 技术线程的深度分析。

Twitter Industry Analysis
2026-05-12 · Paper Note · single HTML note

Iterative Finetuning is Mostly Idempotent

迭代微调是否幂等的机制洞察。

Fine-tuning Training Dynamics LLM