Notes
这里整理较长的技术笔记、论文精读和可独立访问的学习资源。列表统一在站内 Notes 页面管理,按最近更新时间倒序排列。
默认排序:最近更新优先;分类筛选和搜索会保留这个倒序。
MMAE:音频编辑从“能生成”到“能精修”的评测分水岭
深度解读 Tencent Hunyuan 发布的 MMAE: A Massive Multitask Audio Editing Benchmark:解释为什么指令式音频编辑不同于普通音频生成,MMAE 如何用 2,000 个样本、17,741 条 rubric、7 类模态、6 类复杂度和 8 类操作构建评测,并分析当前模型 EMR 低于 5% 背后的结构性瓶颈、planner 局限与下一代音频编辑系统设计方向。
AutoLab:长时程 Agent 的胜负手不是第一拍,而是闭环控制
从 Rohan Paul 的 X 帖深入到 AutoLab 论文、官网、代码仓库与公开轨迹子样本:解释这个 benchmark 真正测到的不是励志意义上的 persistence,而是长时程 agent 在固定预算下管理 benchmark、反馈吸收、best-so-far 状态、收尾纪律与 harness 的闭环控制能力;并对比 RE-Bench、AIRS-Bench、KernelBench,厘清 AutoLab 的定位与边界。
Prime Intellect 视角下的 RL 后训练 32 答:vivek_2332 的算法/Infra 双向工程笔记
深度解读 @vivek_2332 对 sheriyuo 35 道 RL Interview Questions 2026 的 32 答长帖:把算法 16 题与 Infra 16 题按 Prime Intellect 工业视角重排为 6 层技术栈地图,涵盖 Actor-Critic 显存预算、GRPO 变体横向对比、KL 去留的工程含义、能力边界判断、OPD 的 on-policy 关键、DPO 的 backdoor、trainer-inference 数值一致性的 5 个来源、fp8/int8 选择、vLLM/SGLang 调度、PP 不推荐、staleness 1-4 步量级,以及 Prime-RL/verl/TRL/AReaL 框架差异在三大瓶颈(staleness/mismatch/IO)上的具体处理。
RAGEN-2:Entropy 没塌,不代表 Agent 还在看输入
深度解读 RAGEN-2: Reasoning Collapse in Agentic RL:解释为什么 token-level entropy 只能看到同一输入下的表面多样性,无法发现跨输入的 template collapse;拆解 mutual information proxy、in-batch cross-scoring、reward variance / SNR 机制、SNR-Aware Filtering 的实验收益与工程边界。
RL Interview Questions 2026:从面经到 LLM/Agentic RL 全栈能力地图
深度解读 sheriyuo 的 RL Interview Questions 2026 / 2026 年 RL 方向面经合集:把 35 道算法与 Infra 问题拆成 LLM RL / Agentic RL 的能力地图,覆盖 PPO/GRPO、DAPO/GSPO/CISPO、OPD、reward、rollout、KV cache、MoE、异步训练、staleness 与 VeRL/AReaL/slime 选型。
Lilian Weng《Why We Think》与 Lil’Log 全谱系解读
深度解读 Lilian Weng 的《Why We Think》:把 test-time compute、CoT、parallel/sequential search、RL reasoning、CoT faithfulness、continuous latent thinking、latent-variable view 与 thinking-time scaling 串成统一框架;并横向分析 Lil’Log 2017-2025 年 50 篇技术博客的主题迁移、写作方法论和阅读路线。
Self-Trained Verification:把“带答案时会挑错”蒸馏成可用 verifier
深度解读 Chen Henry Wu 与 Aditi Raghunathan 的 Self-Trained Verification:解释为什么 reasoning self-improvement 的瓶颈是 verifier,STV 如何把 reference-conditioned teacher 蒸馏成不看答案的 verifier,以及 ViL 如何用诊断反馈突破标准 RLVR plateau;同时梳理 hard math、SciKnowEval、weak-to-strong verifier、reward hacking 和开放式任务迁移边界。
GRPO++:让 RLVR 真正跑起来的后训练工程手册
深度解读 @neural_avb 推荐的 Cameron R. Wolfe《GRPO++: Tricks for Making RL Actually Work》:从 PPO/GRPO 基础出发,系统梳理 vanilla GRPO 的 reward noise、entropy collapse、长度偏置、zero-gradient prompts 与 sampler-learner off-policy gap,并解释 DAPO、Dr. GRPO、TIS、GSPO、GMPO、CISPO 分别在修哪一层后训练工程问题。
Fantastic Pretraining Optimizers and Where to Find Them:一次 optimizer benchmark 的清算
深度解读 Kaiyue Wen 等人的工作,结合原论文、W&B 详尽实验报告和 GitHub 实验索引,解释为什么很多 1.4–2× optimizer speedup claim 是弱 baseline 和 unfair benchmark 造成的幻觉,以及 matrix-based optimizer 在公平比较下的真实边界。
LLM Infra 设计谱系:从 attention 到 MoE 再到 FP8
从 MAI-Base-1 的架构表出发,调研 local/global attention、GQA/MQA、top-k MoE、LatentMoE、dropless routing、zero-init attention output、FP8 E4M3/E5M2 等 infra 术语背后的技术动机、演进轨迹、代表工作和关键结论:这些设计共同服务于 attention FLOPs、KV cache、all-to-all、router imbalance、GEMM shape、数值稳定和 goodput 的预算化。
MAI-Thinking-1:微软如何把模型研发做成 Hill-Climbing Machine
深度分析 Microsoft AI 技术报告《MAI-Thinking-1: Building a Hill-Climbing Machine》:解释 35B active / 1T total MoE、30T token 预训练、scaling-aware data mixture、NLL suite、dropless MoE、zero-init attention、GRPO-style RL、self-distillation recovery、agentic SWE 环境、安全 gated reward、YOLO/Rocket 基础设施和 8K GB200 goodput 背后的系统性模型研发范式;并本地化所有编号 Figure/Table 所在页面作为图表证据索引。
OmniOPD:用语义 chunk 验证绕开 teacher logits
深度解读 Zhuokai Zhao 关于 OmniOPD 的 X 原帖、前序 OPD 脆弱性长帖和 arXiv 2606.01476:解释标准 OPD 为什么受限于 teacher logits、tokenizer/style mismatch 和 fragile next-token overlap,以及 OmniOPD 如何用 peak-entropy chunk selection、teacher Monte Carlo rollouts、semantic similarity、Dirichlet-Multinomial prior 和 reference KL anchor 构造 logit-free on-policy distillation。
LLM RL at Scale:从 scaling law 到 agentic post-training 的阅读路线
深度解读 Cameron Wolfe / cwolferesearch 的 RL at scale X 书单:把 26 条论文、框架、agentic RL 与工业技术报告短链整理成一条后训练路线,解释为什么 LLM RL scaling 不能照搬预训练 scaling law,而必须同时处理 rollout 吞吐、policy freshness、importance sampling、reward/verifier 可靠性、agent 环境供应链和真实产品闭环。
Mid-training:预训练和后训练之间真正发生了什么
深度解读 Niels Rogge 关于 mid-training 的 X 原帖与 Papers with Code 方法页:解释 mid-training 为什么不是简单的 post-training,而是把通用 base model 继续推向长上下文、领域知识、代码、数学或 agent 轨迹等目标能力分布的中间层;并用 Phi-4、distribution bridging、daVinci-Dev 和 Agentic CPT 说明它和 SFT、DPO、RL 的真实边界。
CAST:给 GRPO 补上 verifier-grounded 的 token 级信用分配
深度解读 @sheriyuo 关于 CAST / GRPO 的 X 原帖与 arXiv 2606.00172:解释 GRPO 在 all-correct / all-wrong zero-variance groups 上的死区,OPSD token preference 与 trajectory correctness 的错位,以及 CAST 如何用 answer-free self-teacher、asymmetric clipping、zero-variance base advantage 和 bidirectional advantage flipping 给 RLVR 训练补上 verifier-grounded 的 token 级信用分配。
A-Evolve:把 Agent Harness 变成可演化的工程对象
深度解读 A-Evolve 两篇论文与开源框架:拆解 Position Paper 的方法贡献(≈ 0 新算法)、Harness Updating ≠ Harness Benefit 作文的受控实验发现(evolver 强弱不重要,solver 能力才决定收益),并把 A-Evolve 放进 2023-2025 十种同类工作的坐标里,逐项审视每个卖点是否算创新。追加赛道全景对照表、7 项机制创新性评估、诚实总结。
Speculative Decoding:投机解码的真实收益、校正采样与生产边界
深度解读 Mohit 的 X Article《Everything you need to know about Speculative Decoding Inference》:在“小模型先猜、大模型验收”的入门直觉之外,补齐 speculative sampling、modified rejection sampling、residual correction、lossless guarantee、draft model / EAGLE / Medusa / MTP / NGRAM 方法谱系,以及 SGLang/vLLM 生产部署中的 batch、KV cache、显存和采样边界。
The Thinking Pixel:把 test-time compute 放进扩散模型 latent 层
深度解读 che_shr_cat 关于 The Thinking Pixel 的 X thread、作者 Substack 公开片段与 arXiv 2604.25299:解释 Recursive Sparse Reasoning 如何在 SD3 / DiT 的 joint attention 层内用 Mixture-of-Adapters、Gumbel-Softmax 路由和 LoRA 低秩专家给视觉 latent token 增加递归 test-time compute;同时校正 GenEval、DPG、ImageNet FID 与 FrozenLake 实验的证据边界。
RHELM:长期记忆评测为什么必须超越静态对话
深度解读 HuggingPapers 推荐的 Microsoft / Renmin University RHELM benchmark:解释为什么长期记忆评测不能停留在静态对话检索,而要覆盖动态 persona、LOOP 轨迹演化、邮件/附件/对话多源同步、misleading query、hallucination correction 与 cross-source aggregation;并分析 RAG、长上下文模型和 memory frameworks 在 RHELM 上暴露的统一记忆架构缺口。
LongTraceRL:用搜索轨迹和实体级 rubric 训练 128K 长上下文推理
深度解读 HuggingPapers 推荐的 LongTraceRL:解释为什么长上下文 RLVR 不能只靠随机 distractor 和 outcome-only reward,LongTraceRL 如何用 Wikipedia KG random walk 生成 8-hop 问题、用 search agent trajectories 抽取 Tier-1/Tier-2 hard distractors,并用 positive-only entity-level rubric reward 在 128K context 上训练证据接地推理;同时梳理 4B/8B/30B 实验、rubric/distractor ablation、公开模型和数据集边界。
Agentic RL 的 rollout 层:从 Agent Loop 到 Agent Environment
深度解读 Yuan He 关于 multi-turn RL rollouts 的 X 主帖、From Agent Loops to Agent Environments slide deck、strands-env 与 strands-sglang:解释为什么 agentic RL 的第一问题不是 KL/GRPO 等算法,而是 rollout system 是否保持 token-faithful、strict tool parsing、termination taxonomy、train-inference match 与环境并发效率;并把 A2E 回复区链接作为 agent-to-environment 协议层对照。
TRB:把 OPD 的早期采样问题改写成受约束的教师引导
深度解读 Trust-Region Behavior Blending for On-Policy Distillation:解释 OPD 为什么会卡在 early student rollout,TRB 如何用 student-centered KL trust region 临时构造接近 teacher 的 behavior policy,并在 warmup 后退火回纯 student rollout;同时分析 Qwen3 数学蒸馏实验中 0.4-0.9 pass@1 平均提升的证据边界。
X 推文周期抓取:AI 研究动态 102 轮选 24 条
SheSheBot x-tweet-digest 流水线 24 小时内 102 轮(每 15 分钟)抓取的精选版:241 条独立推文覆盖 audio LM / multimodal / agent / harness / RL / reward / agentic 7 个方向,10 个主题均衡。报告拆解 Physical AI / Omnimodal(NVIDIA Cosmos 3)、Multimodal Agent(Step 3.7 Flash、Qwen3.7-Plus、MiniMax M3)、Agentic RL & Reward(Kimi subagent RL、Harnessy、Repo2RLEnv)、Speech LLM(OpenAI gpt-realtime-translate、AA-WER Streaming、Tencent 通用 audio tokenizer)四条产业主线,并解释 opencli twitter search + seen_ids 去重 + 主题轮换的工程实现。
Async RL 是否已解决:policy lag、IS 偏差与后训练系统边界
深度解读 Luke J. Huang 关于 frontier asynchronous RL 的 X thread 与长文:解释异步 RL 如何用 rollout/training 解耦换取 2-3x 吞吐,又如何因 policy lag 产生 stale trajectory 和 off-policy instability;梳理 TIS/CISPO、MIS/IcePop、DeepSeek masking、M2PO、MoE routing replay、batch-invariant kernels、FP32 LM head、fast weight sync 等修补手段,并分析 sequence-level IS、token-level IS 与低偏差 compute scaling hypothesis 的工程边界。
BES:把搜索从同分布采样推进到目标反推与轨迹重组
深度解读 Kevin Guowei Xu 关于 BES 的 X 线程、arXiv 2605.28814、GitHub 仓库和 Hugging Face 模型集合:解释 Bidirectional Evolutionary Search 如何用 backward goal decomposition 把稀疏终局奖励变成子目标覆盖信号,并用 combination、deletion、translocation、crossover 重组不同错误轨迹里的局部正确片段,分析其在 post-training、multi-hop agent 和 open problem solving 中的证据与边界。
Self-Distillation 的两面性:World-Bayesian 与 Self-Bayesian 推理
深度解读 Jeonghye Kim 关于 MSRA 实习研究线的 X 线程:解释为什么 self-distillation 在 long-horizon agent 任务里像外部世界经验压缩,却在数学和纯内部推理里可能压制 epistemic verbalization,并串联 EMPO²、Strategic Information Allocation、Self-Distillation Degradation 与 Rebellious Student/RLRT 四篇工作。
Self-Verified Distillation:模型如何把自验证变成后训练数据引擎
深度解读 Tony Lee 与 Percy Liang 的 Self-Verified Distillation 论文和 X thread:解释模型如何从无标签 seed questions 出发,用自生成候选解、UQ 风格多阶段自验证和 SFT 构造 post-training 数据,并分析 generator-validator consistency、UQ-TTC 168 次推理成本、Qwen3 多规模实验收益和自验证边界。
LRPO:把语言选择变成多语言后训练的可学习变量
深度解读 CherylolGuo 关于 LRPO 的 X 线程、arXiv 2605.25360 和官方 GitHub README:解释为什么知识不是均匀分布在语言中,LRPO 如何把 rollout language 作为可学习变量,用 language router、跨语言 reward calibration 和语言一致性奖励改进多语言 policy optimization,并分析其对多语言 RAG、国际化 agent 和 reward 设计的工程启发。
Harvey/Baseten:开放法律 Agent 后训练路线
深度解读 Gabe Pereyra 关于 Harvey 与 Baseten Research 的开放法律 Agent 后训练文章:解释 LAB 如何从法律 agent benchmark 变成可训练环境,为什么 read-heavy 行为、compaction harness、iSFT 和 rubric-passing trajectories 共同构成垂直 agent 后训练闭环,并分析外部复现、rubric reward、private-mode submit 与 KV cache compaction 的边界。
Orbit:把万亿模型 RL 后训练改写成部署一致性问题
深度解读 Besteuler 关于 Orbit 的 X 帖、SphereLab 英文博客、GitHub 仓库和 rollout 架构补充页:解释为什么 Orbit 的关键不是单点 OFT,而是 frozen low-precision base、BF16 adapter、deployment-aligned RL、adapter-native async 和 double-buffered rollout 共同降低万亿模型后训练的显存、权重同步与 train-rollout gap。
CUA-Gym:Computer-Use Agent 的 RLVR 数据基础设施
深度分析 Bowen Wang 关于 CUA-Gym 的 X 线程、论文页、项目主页、Hugging Face 数据集与 GitHub 仓库:解释为什么 Computer-Use Agent 的 RLVR 瓶颈在可复位、可检查、可程序化奖励的数据环境,而不只是算法;同时梳理 setup-gen / reward-gen / orchestrator 闭环、CUA-Gym-Hub 状态 API、OSWorld / WebArena 结果和当前发布材料中的数字差异。
KPop:用自适应 Mask 稳住 Agentic RL 的训练-推理错配
深度解读 Jia Guo 关于 KPop 的 X 主帖与 Notion 博客:解释为什么大规模 MoE / agentic RL 会出现 training-inference mismatch,IcePop 固定 ratio mask 为什么失效,以及 KPop 如何用 symmetric binary KL 构造 token-level hard trust region,让 Ring-2.6-1T 的 SWE agentic RL 在作者报告中从 70.8% 提升到 76.28%。
Cracks in the Foundation:长上下文扩展为什么会被小架构选择击穿
深度解读 Gabriele Berton 关于 OlmPool 的 X 主帖与 Ai2 论文:为什么 QK norm、GQA、sliding window attention 和预训练上下文长度这些看似局部的架构选择,会在 context extension 中复合放大,导致长上下文 benchmark 表现最多下降约 47%。
Hwcoder 算法笔记体系读书笔记
把 Hwcoder 算法笔记分类中的 23 篇算法入门、力扣刷题和手撕经典算法内容整理成一份站内读书笔记:按基础工具、刷题题型、通用模板、深度学习手写组件和复习路线重构,保留完整源笔记清单与阅读定位。
SkillEvolBench 深度解读:从一次性经验到可复用程序性技能
深度解读 arXiv 2605.24117 与项目主页:SkillEvolBench 如何用 6 个真实 agent 环境、180 个任务、acquisition/deployment/replay 协议和 Raw-Trajectory control 评估 agent 能否把 episodic trajectory 演化为 reusable procedural skill,并分析当前 skill abstraction 为什么经常输给原始轨迹复用。
Shannon Scaling Law 与 Token Noise 极限解读
深度解读 rosinality 对《LLMs as Noisy Channels》的评论:为什么 token noise exponent 大于 signal exponent 会让继续加 tokens 的单调收益失效,以及 Shannon Scaling Law 如何用 SNR、loss basin 和外推实验解释过训练、量化与 SFT 扰动。
RL Memory Agent 训练数据效应:Curriculum 如何塑造外部记忆问答能力
深度解读 arXiv 2605.23067:在 memory-augmented QA 中,LoCoMo、LongMemEval 与混合 curriculum 如何改变 RL Answer Agent 的细分技能 profile;同时梳理单 GPU GRPO 下 memory bank 清洗和 binary exact-match reward 方差塌缩的工程边界。
SaaS-Bench 解读:Computer-Use Agent 为什么还不是可靠的 SaaS 工作者
深度解读 @sheriyuo 关于 UniPat AI SaaS-Bench 的 X 帖、官方 blog 与 arXiv 论文:解释 23 个真实 SaaS 系统、106 个长程任务、Checkpoint Score 与 Resolved Score 的巨大落差,以及为什么当前 Computer-Use Agent 还缺少状态验证、跨应用依赖管理和错误恢复能力。
ZCube 推理网络架构解读:KV Cache 流量如何改变数据中心拓扑
深度解读 Z.ai 关于 ZCube 的 X Article 和官方博客:从一次 PD 请求链路、KV Cache 体积公式、ROFT/Fat-Tree 局部热点机制讲起,解释 ZCube 如何用扁平二部拓扑、单轨/多轨混合接入和路径分散降低 TTFT 慢尾,并给出可落地的集群诊断清单。
EqR 与 Neural Attractors:从 Feedforward 到 Iterative Reasoner
深度解读 Benhao Huang 关于 EqR 的 X side-post 与 arXiv 论文:解释 weight tying、segmented online training、hierarchy、ACT、RI/NI 如何共同塑造 neural attractor landscape,并区分 residual convergence 与真实 correctness 的边界。
Agentic Systems as Boosting Weak Reasoning Models 深度解读
深度解读 Grigory Sapunov 的 X 线程与 arXiv 2605.14163:为什么弱模型候选池里经常已有正确 patch,critic-comparator harness 如何回收 oracle best-of-k 暴露的 latent capability,以及 blind-spot floor 为什么限制 test-time boosting。
可信 Audio LLM Survey 深度解读
深度解读 HuggingPapers 推荐的 arXiv 2605.20266:Audio LLM 的可信问题为什么不是语音版文本安全,而是连续声学信号引入 hallucination、robustness、safety、privacy、fairness、authentication 六维风险。
Grok V9、Cursor 数据与 Mid-training 深度解读
深度梳理 Elie Bakouch 关于 Grok V9 的 X 帖:为什么 1.5T 模型、Cursor 数据、supplemental/mid-training 和 2-3 周 RL 发布窗口共同指向 coding agent 能力重心前移。
ZEDA:后训练 MoE 如何跳过一半专家计算
深度解读 Rohan Paul 关于 ZEDA 的 X 帖与论文《Post-Trained MoE Can Skip Half Experts via Self-Distillation》:解释 zero expert、自蒸馏、组级路由约束如何把已后训练 MoE 转成动态 MoE,并分析 50% expert FLOPs 削减、约 20% 推理加速和部署边界。
NITP:Next Implicit Token Prediction 技术解读
aHpaBean 关于 NITP 的 X 预告、ICML 2026 poster 与 GitHub README 深度解读:解释为什么 NTP 的 one-hot CE 可能欠约束 hidden geometry,NITP 如何用下一 token 的浅层表示作为辅助目标,以及它和 JEPA、distillation、Cut Cross-Entropy 的边界。
Test-Time Scaling 与 Training-Free RL 深度解读
深度解读 Xiuyu Li 的 X Article:Test-Time Scaling 如何通过 reward-aware sampling 连接 KL 正则 RLHF、Power Sampling、ETS 与 Self-Evolving 路线。
VPO:为什么多样性训练会改善测试时搜索
深度解读 Ryan Boldi 关于 Vector Policy Optimization 的 X 线程与 arXiv 2605.22817:解释 VPO 如何用向量奖励、多答案链和集合级目标保留可搜索解空间,并分析它在 LiveCodeBench、OpenEvolve 和多目标奖励场景中的适用边界。
Applied Compute RMSD:把 OOD 企业行为拉回模型分布内
深度解读 Applied Compute 的 RMSD 线程与长文:解释 Relevance-Masked Self-Distillation 如何把自然语言 hint 转成 token-level 蒸馏信号,并通过 relevance mask 减少自蒸馏中的无关风格梯度噪声。
手撕经典算法 #1 Attention 篇整理
把 Manual-Coding-1 的 Attention 手写内容整理成站内学习笔记,覆盖 SDPA、MHA、KV Cache、MQA、GQA 的张量形状、mask 边界、缓存语义和实现风险。
大模型测试的下半场:Agent 时代评测该测什么
Agent 时代大模型评测应该关注什么维度的深度分析。
rosinality X 帖与 Proxy Metrics 论文深读
rosinality X 帖与 Proxy Metrics 相关论文的深度阅读。
Delegation Intelligence:Agent 时代该如何重新理解评测
Agent 时代 Delegation Intelligence 评测范式的重新理解。
GRPO 之后:Dense Credit Assignment 的下一步
GRPO 之后 Dense Credit Assignment 的下一步方向分析。
ECHO: Terminal Agents Learn World Models for Free
ECHO 终端 Agent 世界模型学习机制的 X Article 梳理。
NanoGPT-Bench X 线程解读:Coding Agent 能做研究吗?
NanoGPT-Bench X 线程深度解读,探讨 Coding Agent 的研究能力边界。
Mid-training/RL 数据重叠会伤害 RL 吗?
Mid-training 和 RL 阶段数据重叠对 RL 效果的影响分析。
推特大模型动态日报 | 2026-05-19
Twitter/X 上大模型相关动态的每日精选汇总。
数学基础速修手册
一本零基础友好的数学复习手册,围绕微积分、线性代数、概率统计组织 20 个章节,用概念起点、公式读法、完整例题、反例边界、算法流程和 LLM/Quant 应用链路帮助重新建立知识结构。
Lilian Weng: System Accidents 解读
Lilian Weng 系统事故分析经典博客解读。
Memento / KV Cache X 帖深度解读
Memento KV Cache 优化技术的 X 帖深度讨论。
MEMENTO 深度解读:教 LLM 管理自己的上下文
LLM 上下文管理机制的深度分析。
SEIF 论文与 X 帖深度分析
SEIF 指令遵循相关研究的深度分析。
Prime Intellect autonomous nanoGPT speedrun 解读
Prime Intellect autonomous nanoGPT speedrun 深度解读。
168X / Herman Jin 半导体访谈深读
168X Herman Jin 半导体行业访谈的深度阅读分析。
RESD X 线程与论文解读
RESD X 线程与论文的深度阅读分析。
AVB OPD / OPSD 资源帖深度解读
AVB OPD / OPSD 资源帖的深度阅读分析。
Fast-Slow Training X Thread Analysis
Fast-Slow Training X 线程的深度分析。
G-Zero X 线程与论文深读
G-Zero Self-Play 开放生成 X 线程与论文深度阅读。
TencentDB Agent Memory 推文与开源项目分析
TencentDB Agent Memory 推文与开源项目的深度分析。
RELEX / Minimal RLVR Training 深度解读
RELEX Minimal RLVR Training 的深度解读。
Reward Hacking in Rubric-Based RL:X 线程与论文深读
Rubric-Based RL 中 Reward Hacking 问题的 X 线程与论文深读。
Dr. Post-Training 推文与论文深读
Dr. Post-Training 推文与相关论文的深度阅读。
Harbor 与 RL Coding Environments 长文梳理
Harbor RL Coding Environments 的长文梳理。
KLieret X 线程解读:GPT 5.5 首次解出 ProgramBench 实例
GPT 5.5 首次解出 ProgramBench 实例的 X 线程解读。
Agents Need Feedback Loops 阅读分析
Agents Need Feedback Loops 相关内容的阅读分析。
ACuRL X 线程与论文解读:Computer-use Agent 的自主持续学习
ACuRL Computer-use Agent 自主持续学习的 X 线程与论文解读。
SWE-ZERO-12M Trajectories X 帖深度解读
SWE-ZERO-12M Trajectories X 帖深度解读。
LongMemEval-V2 深度解读:Agent Memory 如何走向有经验的同事
LongMemEval-V2 Agent Memory 评估框架深度解读。
Lighthouse Attention X 帖与论文深读
Lighthouse Attention X 帖与论文的深度阅读。
MMProLong / LongPT 深度解读
MMProLong / LongPT 长上下文 LVLM 的深度解读。
GMI Cloud 足球踢球动画 Thread 梳理
GMI Cloud 足球踢球动画空间推理 Thread 梳理。
大模型面试题库
按章节拆分的大模型面试题库,包含 90 个独立章节、筛选搜索、本地 SVG 导图和训练/推理/系统专项内容。
Unmasking On-Policy Distillation
中文论文深读笔记,聚焦 on-policy distillation 为什么更像 token-level credit assignment,而不是全序列模仿。
Artificial Analysis 语音 Agent 评测解读
Artificial Analysis τ-Voice 与 S2S 客服任务评测解读。
Rebellious Student / RLRT 论文深读报告
RL 蒸馏与叛逆学生机制的论文精读。
LCO-Embedding 论文深读报告
LCO-Embedding 方法的深入分析与解读。
长周期 Agent、None-Person Company 与自我进化
Jie Tang X 帖深度解读,探讨长周期 Agent 与自我进化。
Synthetic Pre-Pre-Training Improves LM Robustness
合成数据预训练提升语言模型鲁棒性的深度解读。
Visual Generation Unlocks Human-Like Reasoning
多模态世界模型与视觉生成推理的深度解读。
TRACE: Capability-Targeted Agentic Training
面向能力的 Agent 训练框架深度论文报告。
OnlineRubrics 论文深读与 Insight
OnlineRubrics 在线评分标准的深度解读。
Nitrobrew 推文与技术解读
Nitrobrew Twitter/X 技术线程的深度分析。
Iterative Finetuning is Mostly Idempotent
迭代微调是否幂等的机制洞察。
