64. DeepSeek 专项调研：笔试、面试、面经与经验贴

#DeepSeek 专项调研：笔试、面试、面经与经验贴

这一节单独回答用户最关心的问题：如果目标公司就是 DeepSeek，公开材料里到底能看出什么；以及哪些内容其实并不是“DeepSeek 自家真题”，而是“别的公司会拿 DeepSeek 当知识点来考”。

先给结论：

公开可核实的 DeepSeek 自家面经非常少，且质量参差不齐。真正有信息量、可复述的材料，主要集中在少数新闻转述、个人分享和招聘报道。
和 DeepSeek 求职最相关的信息有两层：
- 第一层：DeepSeek 自家公司招人时，流程更偏研究型、高压型、定制化。
- 第二层：几乎所有大模型算法/推理/infra 岗，都会把 DeepSeek-V3 / R1 / MLA / GRPO / MoE / 长上下文 / KV cache 当成高频知识点来问。
如果你准备 DeepSeek 面试，不等于只背 DeepSeek 论文。真正需要准备的是：
- 大模型基础是否扎实；
- 是否能把 DeepSeek 的关键技术路线讲深；
- 是否有研究/工程项目可以被一路追问到底；
- 是否能承受长时间高密度追问。

#一、信息来源怎么分层看

这次 DeepSeek 专项调研里，公开材料大致可以分成四类：

#1. 直接描述 DeepSeek 招聘/面试流程的材料

这类材料最有价值，虽然数量少，但能帮助判断 DeepSeek 的风格。

腾讯云开发者社区转载面经：https://cloud.tencent.com.cn/developer/article/2497634
凤凰财经 / 太平洋科技 / 观察者风闻等对同一批面试经历的转述
招聘与薪资报道：新浪财经、量子位、中国基金报、每日经济新闻等

这类材料的共同信息比较一致：

DeepSeek 招聘规模不大，但单岗门槛高；
面试更像“研究能力 + 工程能力 + 抗压能力”的联合筛选；
存在 连续约 3 小时高强度提问 的公开描述；
存在 根据候选人背景定制题目 的公开描述，而不是模板化八股面。

#2. 求职社区里的“大模型算法岗面经”，其中大量问题围绕 DeepSeek 展开

这类不是 DeepSeek 自家公司面经，但极有参考价值，因为能反映市场如何考 DeepSeek：

牛客大量算法岗/多模态岗/大模型岗面经
知乎、博客园、CSDN 的面经整理文

这类材料最常出现的问法是：

DeepSeek-R1 的训练流程；
GRPO 和 PPO/DPO/RLHF 的区别；
DeepSeek-V3 的结构亮点；
DeepSeek MLA、DeepSeekMoE、长上下文、KV cache 优化；
“DeepSeek 为什么火”“DeepSeek 的创新点值不值得借鉴”。

#3. 招聘报道和岗位信息

这类材料不能直接当题库，但可以帮助理解 DeepSeek 想招什么样的人。

公开报道里反复出现的关键词包括：

深度学习研究员
核心系统研发工程师
全栈 AI 工程师
AGI / 大模型实习生
多模态、推理优化、分布式训练、系统工程

它传递出的信号很清晰：DeepSeek 不是在招“会调 API 的应用同学”为主，而是更偏向 模型、系统、训练、推理、研究工程一体化 的人才。

#4. 营销型“DeepSeek 面试题大全”

这类文章非常多，尤其在 CSDN、各类内容平台和培训号里经常出现。

它们的问题不是完全没用，而是要注意两点：

很多并不是 DeepSeek 公司真实面试题，而是作者根据大模型岗位常见考点再包装成“DeepSeek 高频题”；
这些内容可以当复习题单，但不能当成真实流程证据。

所以更稳妥的做法是：把它们作为“知识点扩展材料”，而不是“DeepSeek 内部真题回忆”。

#二、从公开材料里能确认的 DeepSeek 面试风格

#1. 不是传统大厂那种“固定题库 + 固定轮次”的标准化流程

公开分享里最值得重视的一点，是 DeepSeek 面试被多次描述为：

更个性化；
更围绕候选人研究方向；
更少模板化八股；
更像当场深挖你的知识边界。

这意味着：同一个岗位、不同候选人，题目差异可能很大。

换句话说，DeepSeek 并不特别适合“押题式准备”。它更像在问：

真实知识边界与核心专长
项目细节是否能持续讲透
面对陌生问题时的持续推理能力

#2. 面试强度高，存在明显“压力面”特征

公开报道里最突出的特征是：

单次线上面试可能持续约 3 小时；
提问高密度、切换快；
对研究背景强相关问题深挖很深；
不只是考知识，还考人在高压下是否还能稳定表达。

这和很多普通互联网面试的区别是：

普通面试常见“先八股，再项目，再算法题”；
DeepSeek 更像“沿着你的背景不断加深问题”，直到触及你真正理解的边界。

因此如果你想准备 DeepSeek，自我介绍和项目介绍不能只准备“顺稿版”，还要准备“被打断、被连续追问、被反问假设条件变化以后还能继续讲”的版本。

#3. 编程题可能会结合候选人背景定制

公开分享中有一句很关键的话：DeepSeek 被描述为“会根据应聘者的专业背景量身定制编程题目”的公司。

这件事背后反映的不是“题更难”这么简单，而是：

它希望减少纯刷题模板带来的信息噪声；
它更想看候选人在自己熟悉领域里到底有没有真实能力；
它可能会用“研究问题 + 工程实现”混合方式来考，而不是纯 LeetCode。

所以准备时不能只刷通用算法题，还要准备：

和你研究方向相关的最小实现题；
能说明 tensor shape、loss、训练流程、缓存设计、检索链路、并行策略的代码/伪代码题；
能把论文里的方法落成可执行模块的解释题。

#三、DeepSeek 自家面试更可能重点考什么

基于公开流程材料、招聘方向和大量“别家公司也在问 DeepSeek”的面经，可以把 DeepSeek 相关考点分成四层。

#第一层：必须非常扎实的大模型基础

这些不是 DeepSeek 独有，但你如果答不稳，后面基本没法往下聊。

高频基础包括：

Transformer / Self-Attention / Decoder-only
Tokenizer / RoPE / 长上下文
预训练 / SFT / 对齐训练
LoRA / QLoRA / 全参微调
RAG / reranker / embedding / chunking
KV cache / batching / quantization / 推理系统
分布式训练 / DP/TP/PP/FSDP/ZeRO

这部分 DeepSeek 不会因为你目标公司是它，就自动跳过。

#第二层：DeepSeek 路线本身的高频考点

这是最需要单独准备的部分。

#1. `DeepSeek-V3` / `DeepSeek-R1` / `R1-Zero` 的关系

几乎所有公开面经整理里，只要提到 DeepSeek，都会追问这几个问题：

V3 与 R1 的模型定位差异
R1-Zero 与 R1 的训练与能力差异
R1-Zero 中纯强化学习与推理涌现的关系
冷启动数据在 R1 中的作用

面试官真正想听的是：

你是否知道 R1-Zero 更接近“少人类先验、让 RL 自己长出推理行为”；
你是否知道 R1 又补回了可读性、稳定性、通用性等工程侧需要的东西；
你是否能把“推理涌现”讲成训练信号、奖励设计、行为变化，而不是只会喊一个 Aha moment。

#2. `GRPO`

这是 DeepSeek 相关面试里最明显的高频词。

典型问法包括：

GRPO 与 PPO 的差异
GRPO 与 DPO 的边界
GRPO 适配该技术路线的原因
GRPO 是否仅仅因为省掉 value model 才有优势
GRPO 对稳定性、样本效率与推理行为塑形的影响

你至少要能说明三件事：

GRPO 是偏组内相对比较的强化学习优化思路；
它和传统 PPO 的 critic / value 依赖关系不同；
它适合“多响应比较、奖励相对排序、推理路径塑形”这类场景。

#3. `DeepSeekMoE`

围绕 MoE 的问题，在大模型面试里本来就高频；一旦是 DeepSeek 语境，频率更高。

常见问法：

DeepSeekMoE 相比普通 dense 模型的优势
DeepSeekMoE 路由机制的特点
MoE 提高总容量但不按比例增加单 token 计算的原因
MoE 在训练、通信与负载均衡上的难点

真正考的是：

你是否知道 MoE 的本质是条件计算；
你是否知道专家负载不均、token dispatch、通信放大这些现实代价；
你是否能把“论文亮点”落到训练系统和推理系统上。

#4. `MLA`、缓存压缩与长上下文/高吞吐推理

另一个 DeepSeek 标志性知识点是 MLA 及其相关缓存优化思路。

高频问法：

MLA 试图解决的核心问题
MLA 与 MHA/MQA/GQA 的关系
MLA 主要优化效果、算力还是缓存/带宽
DeepSeek 类模型重视推理成本与缓存管理的原因

这类题的重点不是背公式，而是理解：

大模型真正的服务瓶颈经常在 cache 和 memory bandwidth；
DeepSeek 的很多设计是在为“更低成本、更高吞吐、更长上下文”服务；
这背后其实是一条完整的系统设计哲学，而不是孤立技巧。

#第三层：研究能力和项目深挖

公开 DeepSeek 面试经验里还有一个很强的信号：项目比八股更重要。

常见追问方式会是：

项目最核心创新点的归纳能力
方案选择背后的设计理由
有效性证明方式
方法迁移到其他分布或规模时的预期表现
失败 case 与定位思路

这意味着 DeepSeek 更看重“研究型表达能力”，即你能不能把一个项目讲成：

问题是什么；
之前方法有什么局限；
你的方案怎么工作；
做了哪些实验；
结果说明了什么；
还有什么没解决。

如果你只有“做了个 RAG 系统”“调了个 LoRA”这种描述，通常不够。

#第四层：系统工程和落地能力

从招聘方向看，DeepSeek 也明显不是只招“会写论文的人”。

如果岗位偏训练、推理、系统、infra，还要准备：

FSDP/ZeRO/TP/PP
通信原语和性能瓶颈
KV cache、PagedAttention、continuous batching
quantization、算子融合、memory-bound vs compute-bound
数据管线、评测系统、训练排障

一句话说，DeepSeek 很可能会同时要求你：

讲得出算法；
落得下系统；
解释得清实验；
还能在压力面里持续输出。

#四、公开材料里能看到的“题目风格”

虽然 DeepSeek 自家完整真题公开很少，但从“DeepSeek 相关知识点在其他大模型岗的出现方式”可以总结出它的题风。

#1. 不爱只问定义，更爱问“为什么这样设计”

比如不是只问：

什么是 GRPO？

而是会进一步问：

为什么要这样设计？
和 PPO/DPO 相比到底解决了什么实际问题？
如果放到你的项目里，有什么收益和代价？

#2. 不只问论文结论，更爱问“你能不能复述出因果链”

比如不是只问：

R1-Zero 很强，对吧？

而是会继续问：

它强在什么阶段？
为什么会涌现出更长推理？
它解决了什么，又留下了什么问题？

#3. 会把算法、系统、产品边界揉在一起问

例如一个问题可能从：

MoE 路由机制

一路追到：

通信负载均衡
推理成本
线上部署可行性
你会不会真的选这条路线

这种风格对候选人的要求比“只会论文八股”高很多。

#五、DeepSeek 笔试可能怎么考

直接公开的 DeepSeek 笔试题并不多，所以这里要分清：

能确认的很少；
但从公开面经和相关新闻里，可以合理推测它不会是纯模板笔试公司。

相对高概率的形式有三类：

#1. 定制化编程题

如果公开“按候选人背景定制编程题”的说法属实，那么笔试/机试很可能更偏：

数学直觉；
张量/算法基础；
与研究方向相关的实现题；
不是单纯考最常见八股 LeetCode。

#2. 研究工程混合题

例如：

给一个训练/推理问题，让你说明思路；
给一个模型设计，让你分析瓶颈；
给一个实验现象，让你解释原因和改进方向。

#3. 传统算法题仍然不能放

即使是 DeepSeek，这也不代表完全不考基础算法。

只不过算法题更可能被当成“基础门槛”，而不是全部评价标准。

#六、岗位差异：同样是 DeepSeek，准备重点并不一样

#1. 算法研究岗 / 大模型算法岗

最重视：

R1/V3/GRPO/MoE/MLA
训练范式
论文理解
实验设计
项目深挖

最危险的短板：

只会应用，不懂训练；
只背八股，不会讲实验；
不会把论文方法翻译成自己的理解。

#2. 推理 / Serving / Infra / 系统岗

最重视：

KV cache
GQA/MQA/MLA
PagedAttention
continuous batching
分布式训练与通信
kernel / IO / memory bottleneck

最危险的短板：

只懂模型概念，不懂线上瓶颈；
说不清吞吐、延迟、显存之间的 trade-off；
不会做性能排障。

#3. 多模态 / Agent / 应用研究岗

最重视：

DeepSeek 相关模型理解
RAG / Agent / Tool Use
数据构造与评测
项目落地能力

最危险的短板：

只会调用框架；
不会说明为什么效果好或不好；
不能把 bad case 拆成模块定位。

#七、从经验贴里能提炼出的备考策略

#1. 别把 DeepSeek 准备成“背论文”

最常见误区是：

只背 R1、V3、MoE 的结论；
但不会解释训练目标、系统代价、实验逻辑。

更好的准备方式是把每个重点都回答成五步：

解决什么问题；
怎么做；
为什么有效；
代价是什么；
如果让我自己做，我会怎么选。

#2. 一定要准备“项目被连续追问 20 分钟”的版本

DeepSeek 这种高压、深挖风格下，项目往往比八股更能决定上限。

建议至少把自己最强的 2 个项目准备到下面这个程度：

业务/研究问题是什么；
数据怎么来；
模型怎么选；
baseline 是什么；
指标是什么；
为什么提升；
失败 case；
如果重做一次会怎么改。

#3. 必须有“把 DeepSeek 讲深”的能力

至少要能独立讲清：

DeepSeek-V3
DeepSeek-R1
R1-Zero
GRPO
DeepSeekMoE
MLA

而且不是“知道名词”，而是能经得住追问：

和别家方法比有什么不同？
真正解决了什么？
为什么这家公司会往这个方向押注？

#4. 不能只练轻量八股，要练高压表达

因为公开材料里反复出现的一点就是：时间长、强度高、压力面明显。

所以实际准备里，很值得做的是：

用录音或 mock interview 连续讲 45-60 分钟；
训练被打断以后还能接着讲；
训练面对“不知道”的问题时，如何先界定边界，再给出合理分析，而不是直接卡死。

#八、信息边界：哪些能说得很确定，哪些不能

#可以较确定地说

DeepSeek 公开招聘确实高薪，并且岗位更偏研究/系统硬核方向；
公开分享里确实存在 长时间、高强度、偏压力面 的描述；
公开分享里确实存在 按候选人背景定制题目 的描述；
在大模型岗位市场里，DeepSeek-R1/V3/GRPO/MoE/MLA 已经成为极高频考点。

#不能过度确定地说

“DeepSeek 一定会出某几道固定真题”；
“所有岗位都是三小时压力面”；
“DeepSeek 一定有统一标准化笔试卷”；
“网上任何标着 DeepSeek 面试题的文章都是真实回忆”。

更严谨的说法应该是：

DeepSeek 自家公开真题少；
但它的面试风格和技术考点轮廓已经能从公开材料里看出来；
真正准备方式应是“深度理解 + 项目硬度 + 高压表达”，而不是押固定题。

#九、DeepSeek 专项的最小备考清单

如果你只有很短时间准备 DeepSeek，我建议至少把下面这些拿稳：

#必会技术

Transformer / Attention / Decoder-only
RoPE / 长上下文
LoRA / QLoRA / SFT / RLHF / DPO
GRPO
DeepSeek-R1 / R1-Zero / V3
MoE / DeepSeekMoE
MLA / GQA / KV cache
RAG / reranker / Agent
FSDP / ZeRO / TP / PP
PagedAttention / continuous batching / quantization

#必备表达

一个最强研究/算法项目
一个最强工程/系统项目
一套“我为什么适合 DeepSeek”的自我表达
一套“我不知道时怎么分析问题”的应对方式

#必做模拟

一次 60 分钟连续技术 mock
一次项目深挖 mock
一次高压问答 mock

#十、DeepSeek 专项结论

如果把所有公开信息压缩成一句话，DeepSeek 的面试不是“难在题怪”，而是难在它更接近对研究工程综合能力的真实性筛选。

它更像在判断：

你是不是只会背答案；
你有没有真正理解大模型系统；
你能不能把一个复杂问题讲透；
你能不能在高压里持续输出。

所以准备 DeepSeek 的正确方式不是“搜几套 DeepSeek 真题背下来”，而是：

用 DeepSeek 相关技术路线做重点；
用自己项目做主战场；
用高压 mock 把表达和思考打磨出来。

#DeepSeek 专项调研：笔试、面试、面经与经验贴

#一、信息来源怎么分层看

#1. 直接描述 DeepSeek 招聘/面试流程的材料

#2. 求职社区里的“大模型算法岗面经”，其中大量问题围绕 DeepSeek 展开

#3. 招聘报道和岗位信息

#4. 营销型“DeepSeek 面试题大全”

#二、从公开材料里能确认的 DeepSeek 面试风格

#1. 不是传统大厂那种“固定题库 + 固定轮次”的标准化流程

#2. 面试强度高，存在明显“压力面”特征

#3. 编程题可能会结合候选人背景定制

#三、DeepSeek 自家面试更可能重点考什么

#第一层：必须非常扎实的大模型基础

#第二层：DeepSeek 路线本身的高频考点

#1. DeepSeek-V3 / DeepSeek-R1 / R1-Zero 的关系

#2. GRPO

#3. DeepSeekMoE

#4. MLA、缓存压缩与长上下文/高吞吐推理

#第三层：研究能力和项目深挖

#第四层：系统工程和落地能力

#四、公开材料里能看到的“题目风格”

#1. 不爱只问定义，更爱问“为什么这样设计”

#2. 不只问论文结论，更爱问“你能不能复述出因果链”

#3. 会把算法、系统、产品边界揉在一起问

#五、DeepSeek 笔试可能怎么考

#1. 定制化编程题

#2. 研究工程混合题

#3. 传统算法题仍然不能放

#六、岗位差异：同样是 DeepSeek，准备重点并不一样

#1. 算法研究岗 / 大模型算法岗

#2. 推理 / Serving / Infra / 系统岗

#3. 多模态 / Agent / 应用研究岗

#七、从经验贴里能提炼出的备考策略

#1. 别把 DeepSeek 准备成“背论文”

#2. 一定要准备“项目被连续追问 20 分钟”的版本

#3. 必须有“把 DeepSeek 讲深”的能力

#4. 不能只练轻量八股，要练高压表达

#八、信息边界：哪些能说得很确定，哪些不能

#可以较确定地说

#不能过度确定地说

#九、DeepSeek 专项的最小备考清单

#必会技术

#必备表达

#必做模拟

#十、DeepSeek 专项结论

#1. `DeepSeek-V3` / `DeepSeek-R1` / `R1-Zero` 的关系

#2. `GRPO`

#3. `DeepSeekMoE`

#4. `MLA`、缓存压缩与长上下文/高吞吐推理