知乎科研文（3）

作者：bigpunch
链接：https://www.zhihu.com/question/1913413189753877312/answer/1985848243595276793
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

我大概看了一下你的描述，基于LLM Agent的狼人杀，微调Llama做推荐，多模态知识图谱。这些项目听起来很唬人，放在简历上，HR大概率也会多看两眼。但你自己心里发虚，除了会写几句prompt，会调一下huggingface的接口，一旦还要往下深挖，比如问你为什么这里出现了幻觉，为什么那个模型推理速度慢了30%，你大概率就卡壳了。

马上都要2026年了，大模型这把火烧了好几年，现在行业里的真实情况就是：会调API的人比只会写CRUD的人还要多，已经严重通货膨胀了。

你现在的焦虑是对的。那种只停留在应用层的入坑，其实根本不算入坑，顶多算是还在坑边上溜达，捡了点别人掉下来的金币。

既然你想要一个完全的、深度的、甚至带点私货的学习路径，那我就不跟你整那些虚头巴脑的人工智能导论或者吴恩达DeepLearning课程了。那些是基础，你本科既然能搞出这些项目，说明你基础代码能力和数学直觉应该还在。

咱们直接来点硬的。你要想真正入坑LLM，得把这层无所不能的黑盒给扒开。

我现在带团队招人，根本不看谁用过LangChain，谁用过LlamaIndex。这俩库封装得太好了，好到把所有人的脑子都养懒了。我要找的是那种能从CUDA kernel这一层往上思考，或者能从数据分布这一层往下思考的人。

下面这个路径，是我这两年自己在业务里踩坑，加上我观察组里那帮拿顶级包的应届生怎么成长的总结。这套东西很枯燥，很反直觉，但你把这些搞通了，你就不是在玩票，你是在造核武器。

阶段一：祛魅，手搓一切

你觉得自己虚，是因为你一直站在巨人的肩膀上。你把transformers库import进来，model.generate一跑，结果出来了。但你不知道这里面到底发生了什么。

别再看论文了，尤其是那些为了发顶会而灌水的论文。

现在市面上90%的大模型论文都是在炒冷饭。你要做的是回溯本源。

你现在就干一件事：抛弃Pytorch以外的所有高层库。

别用transformers，别用peft，别用任何现成的Agent框架。

要是倒退两年，我会让你去扒Andrej Karpathy的minGPT。但现在这玩意儿已经那是老黄历了，Karpathy自己都把它归档了。

你现在应该去看nanoGPT，或者更进一步，直接去啃他2025年主推的nanochat。

这不是让你看，是让你照着写。minGPT那是当年的神器，但nanochat现在的代码结构更贴合当下的实践，特别是对于chat格式数据的处理，以及更现代的activation管理。

你要自己手写一个Transformer的Block。你需要搞清楚，Q、K、V矩阵在代码里到底是怎么乘出来的，Mask到底是在哪一步加上去的，Softmax之后那个概率分布长什么样。

当你手写完Multi-head Attention之后，你得去手写一个简单的tokenizer。别直接用BPE的现成库。你去看看unicode是怎么被映射成byte，然后怎么被合并成token的。你会发现，很多时候模型那个莫名其妙的bug，仅仅是因为tokenizer没切好，或者特殊字符处理炸了。

你之前不是做过推荐系统微调吗？你试着不用trainer接口。你自己写training loop。
你需要自己去管理gradient accumulation，自己去写learning rate scheduler。你会发现，原来batch size设置大了显存会爆不仅仅是因为参数多，还因为中间的activation存不下了。这时候你才会去思考，checkpointing技术到底是啥，怎么用时间换空间。

当你能不依赖任何高级库，纯手搓一个能跑通的小型GPT，看着loss曲线慢慢往下降的时候，你心里的那个虚字就消掉一半了。

阶段二：数据工程，这才是真正的壁垒

到了2025年底，大家早就达成共识了：模型架构那点事儿，早就没秘密了。Transformer统领江湖这么多年，真正拉开差距的，是Data。

你觉得你微调Llama效果不好，或者做狼人杀Agent经常逻辑掉线，你第一反应是不是：换个更大的模型？换个更牛逼的prompt？

错。如果你是这个思路，那你在工业界活不过三个月。

真正的高手，全是数据变态。

你要入坑LLM，必须得入坑Data Engineering。不是那种简单的洗洗数据，而是Data Synthesis数据合成和Data Curriculum数据课程。

现在的趋势是，高质量的人类数据快被用光了。未来的模型训练，大部分数据其实是模型自己生成的，或者是通过某种规则合成的。

HF上的Cosmopedia依然是经典，但更要关注的是**FineWeb**。这玩意儿简直是数据界的圣经。

现在FineWeb已经更新到了v1.4.0版本，把2025年上半年的CommonCrawl snapshots都吞进去了，清洗力度更狠，规模更大。特别是它的教育子集FineWeb-Edu，你得去读读它们的技术报告，看看人家是怎么做dedup去重和质量过滤的。那是直接影响今年一堆SOTA数据集的核心技术。

再看看微软的Phi系列。当年的Phi-1.5已经是过去式了，现在你要看的是Phi-4系列。

Phi-4-mini在数学和代码上干翻了一堆大模型，靠的就是教科书级别的合成数据和高质量的organic数据配比。特别是Phi-4-reasoning，那种强化推理版的数据构建思路，才是现在最值钱的手艺。

你现在回头看你的推荐系统微调。你的数据分布是怎么样的？有没有做过数据配比？Instruction Tuning的数据质量怎么评估？
如果让你去微调一个模型，专门用来写SQL语句。你哪怕拿到了一万条Text-to-SQL的数据，直接扔进去训练，效果大概率很烂。
为什么？因为数据里可能有错，可能有歧义，格式可能不统一。
你需要学会写脚本去自动化清洗数据，甚至训练一个小模型来给数据打分，把低质量的数据剔除掉。

在阿里、字节这种大厂，搞大模型核心算法的，80%的时间都在跟数据死磕。如果你能有一套独到的数据清洗和合成的方法论，那你就是团队里的大腿。

阶段三：训练动力学，看懂Loss曲线背后的鬼故事

你会微调，我知道。但如果loss不降反升怎么办？如果loss降了但评估指标烂了怎么办？如果出现了catastrophic forgetting灾难性遗忘怎么办？

这就涉及到了Training Dynamics。

现在外面讲大模型的教程，很少讲这个，因为太玄学了。但你得懂。

你要去理解Scaling Law。不仅仅是那个公式，而是要有体感。增加数据量和增加参数量，对最终loss的贡献到底是啥关系？在算力有限的情况下，我是该把模型做大点训练得短点，还是把模型做小点训练得久点？

去找一些开源大模型放出来的训练日志。OLMo是个好东西，尤其是2025年底AI2发布的**OLMo 3**。

OLMo 3现在的透明度简直是业界良心，特别是OLMo 3-Think这个版本，连中间的推理链训练数据、checkpoint、甚至最细碎的WandB日志全公开了。别光看论文，去看那些密密麻麻的曲线。

特别是看其中的Gradient Norm曲线。你会发现有时候模型训练着训练着，梯度突然爆炸了，或者突然消失了。你要学会分析这些spike发生的时候，数据里到底出现了什么脏东西。

还有，你得深入理解LoRA和QLoRA背后的数学原理。别只知道它是省显存的。你需要知道低秩矩阵分解到底丢掉了什么信息？为什么有时候全量微调不如LoRA？秩Rank选多少合适？

这部分很难，很枯燥，全是数学和实验。但你一旦有了这种直觉，你就能解释很多玄学现象。

阶段四：推理加速与部署，这是能换钱的技术

如果你前面都搞定了，恭喜你，你已经是个合格的算法工程师了。但要想成为专家，你得懂System。

现在的模型越来越大，推理成本越来越高。老板不关心你的模型perplexity降低了0.01，老板只关心你的推理延迟能不能进200ms，每千个token的成本能不能降50%。

这块是纯硬核的计算机系统知识。

你需要了解KV Cache。这是大模型推理加速的核心。你要知道如果不做缓存，每次生成一个token都要把前面的算一遍，那复杂度是平方级的。
你需要了解PagedAttention。显存碎片化是怎么拖慢速度的？为什么我们需要像操作系统管理内存一样管理KV Cache？

vLLM依然是王者，而且现在已经到了V1大版本。

去读它的源码，或者至少把它的博客读烂。现在的vLLM不仅是PagedAttention了，它还支持了chunked prefill分块预填充，支持了speculative decoding投机采样。你要搞懂它是怎么更灵活地调度新硬件资源的。

去了解FlashAttention的原理。Dao Tri那篇论文是经典，它怎么利用GPU的SRAM和HBM之间的带宽差异来加速计算的。这个思想在未来五年内都不会过时。

去玩玩TensorRT-LLM或者llama.cpp。看看量化Quantization到底是怎么做的。现在不仅仅是4-bit了，2-bit量化的实验级支持都出来了，到底是怎么在几乎不损失精度的情况下，把模型塞进消费级显卡的。

把你微调好的那个Llama模型，别用pytorch跑推理了。
你试着把它转成ONNX，或者转成TensorRT引擎。
或者试着给它上一个vLLM的后端，做成一个高并发的服务。
然后做压测。看看并发上来的时候，显存是怎么变化的，吞吐量Throughput和延迟Latency的瓶颈在哪里。

这一块现在的缺口非常大。懂算法的不懂底层CUDA优化，懂C++的不懂模型结构。你如果能把这一层打通，你就是稀缺人才。

阶段五：Agent与Evaluation，从玩具到产品

回到你做过的Agent狼人杀。你觉得那是Agent吗？那其实就是一堆prompt的堆砌。

真正的Agent，难点在于Planning规划和State Management状态管理，以及最最最重要的——Evaluation评估。

现在大家做Agent最大的痛点是不可控。你让它写代码，它写了，但跑不通。你让它玩狼人杀，它聊着聊着忘了自己是狼人。

别看LangChain了，那玩意儿太重。早期的Swarm也已经凉透了，那是实验品。

去看看Stanford的**DSPy**。这才是未来，而且活得很好，2025年一直在迭代。

DSPy的核心逻辑是把Prompt变成了可编程、可优化的模块。它提出了一种理念：Prompt不应该由人来写，应该由模型根据数据自动优化。现在的DSPy在异步处理、并发流式输出上做得非常成熟。

还有Evaluation。
你怎么评价你的狼人杀Agent厉害不厉害？靠人盯着看吗？那不现实。
你需要构建一套自动化的评估流水线。
比如，用一个更强的模型作为裁判，来给你的小模型打分。这叫LLM-as-a-Judge。
你需要研究如何设计这个裁判的prompt，让它的打分跟人类的体感一致。

现在企业里落地大模型，70%的时间花在搞评测集上。没有评测，任何优化都是盲人摸象。你改了个prompt，感觉好像变好了，结果上线一跑，长尾query崩了一大片。
你要学会怎么量化智能。怎么定义幻觉率？怎么定义指令遵循能力？

阶段六：多模态与未来

你提到了Janus Pro，这很好，而且你眼光很毒。

DeepSeek在2025年初搞出来的Janus-Pro-7B确实牛逼。它走的是原生多模态Native Multimodal的路子，把视觉理解和图像生成统一了，而且解耦了视觉编码路径。这玩意儿在指令跟随和稳定性上甚至干翻了一些专有模型。

多模态绝对是接下来的主战场。但未来的趋势是更极致的端到端。

对于这块，我的建议是：关注Tokenization和长上下文。

现在的图像还是被切成patch变成token喂进去的。但视频怎么切？音频怎么切？
怎么在极长的context window下处理一段1小时的视频？这里面涉及到的稀疏注意力机制Sparse Attention是当下的前沿。

去跟进一下Ring Attention的技术。这玩意儿是为了解决百万级token训练而生的，也是现在多模态视频模型、世界模型LWM背后的关键技术。
去看看Llava系列的演进，从最简单的projection layer到复杂的各种instruction tuning。

你看，我这一路说下来，没让你去考个证，也没让你去背八股文。

所谓的入坑，其实就是建立掌控感。

你之前觉得虚，是因为你在用黑盒。
如果你能做到：

代码层：用nanochat手搓模型结构，理解每一个矩阵乘法。
数据层：玩转FineWeb v1.4，懂得Phi-4那种教科书级的数据合成方法。
训练层：对着OLMo 3的WandB日志，看懂loss曲线的每一次波动。
系统层：用vLLM V1把GPU性能压榨到极致，懂得量化和推理加速。
业务层：用DSPy优化你的Agent，建立一套科学的评估体系。

这五条线，随便哪一条拎出来深挖，都够你吃十年的。

别觉得这些东西太深太难。现在的技术迭代速度，大家都在同一起跑线上。那些所谓的专家，无非就是比你早几个月看了那部分源码，比你多跑崩了几次集群而已。

你要做的，是把心态慢下来。别天天盯着HuggingFace上又出了哪个新模型，赶紧去跑个demo发朋友圈。那没用。

你静下心来，花一个月时间，把vLLM的源码啃一遍，或者把自己做过的RAG系统的检索链路彻底重构一遍，加上各种rerank和query rewrite策略，并且做一套完整的评测集。

那时候，你就不是在求入坑指南了，你就是那个给别人指路的人。

这个行业现在太浮躁了，沉得下心来搞底层工程和数据科学的人，真的太少太少了。

希望在这个坑底，能见到你的身影。加油。

知乎科研文（3）

阶段一：祛魅，手搓一切

阶段二：数据工程，这才是真正的壁垒

阶段三：训练动力学，看懂Loss曲线背后的鬼故事

阶段四：推理加速与部署，这是能换钱的技术

阶段五：Agent与Evaluation，从玩具到产品

阶段六：多模态与未来

More to Explore

风中凌乱，又是一年冬

重新构建对自己的认知

Discussion