Uncategorized 2025年12月21日 41 min read

知乎科研文(3)


作者:bigpunch
链接:https://www.zhihu.com/question/1913413189753877312/answer/1985848243595276793
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我大概看了一下你的描述,基于LLM Agent的狼人杀,微调Llama做推荐,多模态知识图谱。这些项目听起来很唬人,放在简历上,HR大概率也会多看两眼。但你自己心里发虚,除了会写几句prompt,会调一下huggingface的接口,一旦还要往下深挖,比如问你为什么这里出现了幻觉,为什么那个模型推理速度慢了30%,你大概率就卡壳了。

马上都要2026年了,大模型这把火烧了好几年,现在行业里的真实情况就是:会调API的人比只会写CRUD的人还要多,已经严重通货膨胀了。

你现在的焦虑是对的。那种只停留在应用层的入坑,其实根本不算入坑,顶多算是还在坑边上溜达,捡了点别人掉下来的金币。

既然你想要一个完全的、深度的、甚至带点私货的学习路径,那我就不跟你整那些虚头巴脑的人工智能导论或者吴恩达DeepLearning课程了。那些是基础,你本科既然能搞出这些项目,说明你基础代码能力和数学直觉应该还在。

咱们直接来点硬的。你要想真正入坑LLM,得把这层无所不能的黑盒给扒开。

我现在带团队招人,根本不看谁用过LangChain,谁用过LlamaIndex。这俩库封装得太好了,好到把所有人的脑子都养懒了。我要找的是那种能从CUDA kernel这一层往上思考,或者能从数据分布这一层往下思考的人。

下面这个路径,是我这两年自己在业务里踩坑,加上我观察组里那帮拿顶级包的应届生怎么成长的总结。这套东西很枯燥,很反直觉,但你把这些搞通了,你就不是在玩票,你是在造核武器。

阶段一:祛魅,手搓一切

你觉得自己虚,是因为你一直站在巨人的肩膀上。你把transformers库import进来,model.generate一跑,结果出来了。但你不知道这里面到底发生了什么。

别再看论文了,尤其是那些为了发顶会而灌水的论文。

现在市面上90%的大模型论文都是在炒冷饭。你要做的是回溯本源。

你现在就干一件事:抛弃Pytorch以外的所有高层库。

别用transformers,别用peft,别用任何现成的Agent框架。

要是倒退两年,我会让你去扒Andrej KarpathyminGPT。但现在这玩意儿已经那是老黄历了,Karpathy自己都把它归档了。

你现在应该去看nanoGPT,或者更进一步,直接去啃他2025年主推的nanochat

这不是让你看,是让你照着写。minGPT那是当年的神器,但nanochat现在的代码结构更贴合当下的实践,特别是对于chat格式数据的处理,以及更现代的activation管理。

你要自己手写一个Transformer的Block。你需要搞清楚,Q、K、V矩阵在代码里到底是怎么乘出来的,Mask到底是在哪一步加上去的,Softmax之后那个概率分布长什么样。

当你手写完Multi-head Attention之后,你得去手写一个简单的tokenizer。别直接用BPE的现成库。你去看看unicode是怎么被映射成byte,然后怎么被合并成token的。你会发现,很多时候模型那个莫名其妙的bug,仅仅是因为tokenizer没切好,或者特殊字符处理炸了。

你之前不是做过推荐系统微调吗?你试着不用trainer接口。你自己写training loop。
你需要自己去管理gradient accumulation,自己去写learning rate scheduler。你会发现,原来batch size设置大了显存会爆不仅仅是因为参数多,还因为中间的activation存不下了。这时候你才会去思考,checkpointing技术到底是啥,怎么用时间换空间。

当你能不依赖任何高级库,纯手搓一个能跑通的小型GPT,看着loss曲线慢慢往下降的时候,你心里的那个虚字就消掉一半了。

阶段二:数据工程,这才是真正的壁垒

到了2025年底,大家早就达成共识了:模型架构那点事儿,早就没秘密了。Transformer统领江湖这么多年,真正拉开差距的,是Data。

你觉得你微调Llama效果不好,或者做狼人杀Agent经常逻辑掉线,你第一反应是不是:换个更大的模型?换个更牛逼的prompt?

错。如果你是这个思路,那你在工业界活不过三个月。

真正的高手,全是数据变态。

你要入坑LLM,必须得入坑Data Engineering。不是那种简单的洗洗数据,而是Data Synthesis数据合成和Data Curriculum数据课程。

现在的趋势是,高质量的人类数据快被用光了。未来的模型训练,大部分数据其实是模型自己生成的,或者是通过某种规则合成的。

HF上的Cosmopedia依然是经典,但更要关注的是**FineWeb**。这玩意儿简直是数据界的圣经。

现在FineWeb已经更新到了v1.4.0版本,把2025年上半年的CommonCrawl snapshots都吞进去了,清洗力度更狠,规模更大。特别是它的教育子集FineWeb-Edu,你得去读读它们的技术报告,看看人家是怎么做dedup去重和质量过滤的。那是直接影响今年一堆SOTA数据集的核心技术。

再看看微软的Phi系列。当年的Phi-1.5已经是过去式了,现在你要看的是Phi-4系列

Phi-4-mini在数学和代码上干翻了一堆大模型,靠的就是教科书级别的合成数据和高质量的organic数据配比。特别是Phi-4-reasoning,那种强化推理版的数据构建思路,才是现在最值钱的手艺。

你现在回头看你的推荐系统微调。你的数据分布是怎么样的?有没有做过数据配比?Instruction Tuning的数据质量怎么评估?
如果让你去微调一个模型,专门用来写SQL语句。你哪怕拿到了一万条Text-to-SQL的数据,直接扔进去训练,效果大概率很烂。
为什么?因为数据里可能有错,可能有歧义,格式可能不统一。
你需要学会写脚本去自动化清洗数据,甚至训练一个小模型来给数据打分,把低质量的数据剔除掉。

在阿里、字节这种大厂,搞大模型核心算法的,80%的时间都在跟数据死磕。如果你能有一套独到的数据清洗和合成的方法论,那你就是团队里的大腿。

阶段三:训练动力学,看懂Loss曲线背后的鬼故事

你会微调,我知道。但如果loss不降反升怎么办?如果loss降了但评估指标烂了怎么办?如果出现了catastrophic forgetting灾难性遗忘怎么办?

这就涉及到了Training Dynamics。

现在外面讲大模型的教程,很少讲这个,因为太玄学了。但你得懂。

你要去理解Scaling Law。不仅仅是那个公式,而是要有体感。增加数据量和增加参数量,对最终loss的贡献到底是啥关系?在算力有限的情况下,我是该把模型做大点训练得短点,还是把模型做小点训练得久点?

去找一些开源大模型放出来的训练日志。OLMo是个好东西,尤其是2025年底AI2发布的**OLMo 3**。

OLMo 3现在的透明度简直是业界良心,特别是OLMo 3-Think这个版本,连中间的推理链训练数据、checkpoint、甚至最细碎的WandB日志全公开了。别光看论文,去看那些密密麻麻的曲线。

特别是看其中的Gradient Norm曲线。你会发现有时候模型训练着训练着,梯度突然爆炸了,或者突然消失了。你要学会分析这些spike发生的时候,数据里到底出现了什么脏东西。

还有,你得深入理解LoRA和QLoRA背后的数学原理。别只知道它是省显存的。你需要知道低秩矩阵分解到底丢掉了什么信息?为什么有时候全量微调不如LoRA?秩Rank选多少合适?

这部分很难,很枯燥,全是数学和实验。但你一旦有了这种直觉,你就能解释很多玄学现象。

阶段四:推理加速与部署,这是能换钱的技术

如果你前面都搞定了,恭喜你,你已经是个合格的算法工程师了。但要想成为专家,你得懂System。

现在的模型越来越大,推理成本越来越高。老板不关心你的模型perplexity降低了0.01,老板只关心你的推理延迟能不能进200ms,每千个token的成本能不能降50%。

这块是纯硬核的计算机系统知识。

你需要了解KV Cache。这是大模型推理加速的核心。你要知道如果不做缓存,每次生成一个token都要把前面的算一遍,那复杂度是平方级的。
你需要了解PagedAttention。显存碎片化是怎么拖慢速度的?为什么我们需要像操作系统管理内存一样管理KV Cache?

vLLM依然是王者,而且现在已经到了V1大版本。

去读它的源码,或者至少把它的博客读烂。现在的vLLM不仅是PagedAttention了,它还支持了chunked prefill分块预填充,支持了speculative decoding投机采样。你要搞懂它是怎么更灵活地调度新硬件资源的。

去了解FlashAttention的原理。Dao Tri那篇论文是经典,它怎么利用GPU的SRAM和HBM之间的带宽差异来加速计算的。这个思想在未来五年内都不会过时。

去玩玩TensorRT-LLM或者llama.cpp。看看量化Quantization到底是怎么做的。现在不仅仅是4-bit了,2-bit量化的实验级支持都出来了,到底是怎么在几乎不损失精度的情况下,把模型塞进消费级显卡的。

把你微调好的那个Llama模型,别用pytorch跑推理了。
你试着把它转成ONNX,或者转成TensorRT引擎。
或者试着给它上一个vLLM的后端,做成一个高并发的服务。
然后做压测。看看并发上来的时候,显存是怎么变化的,吞吐量Throughput和延迟Latency的瓶颈在哪里。

这一块现在的缺口非常大。懂算法的不懂底层CUDA优化,懂C++的不懂模型结构。你如果能把这一层打通,你就是稀缺人才。

阶段五:Agent与Evaluation,从玩具到产品

回到你做过的Agent狼人杀。你觉得那是Agent吗?那其实就是一堆prompt的堆砌。

真正的Agent,难点在于Planning规划和State Management状态管理,以及最最最重要的——Evaluation评估。

现在大家做Agent最大的痛点是不可控。你让它写代码,它写了,但跑不通。你让它玩狼人杀,它聊着聊着忘了自己是狼人。

别看LangChain了,那玩意儿太重。早期的Swarm也已经凉透了,那是实验品。

去看看Stanford的**DSPy**。这才是未来,而且活得很好,2025年一直在迭代。

DSPy的核心逻辑是把Prompt变成了可编程、可优化的模块。它提出了一种理念:Prompt不应该由人来写,应该由模型根据数据自动优化。现在的DSPy在异步处理、并发流式输出上做得非常成熟。

还有Evaluation。
你怎么评价你的狼人杀Agent厉害不厉害?靠人盯着看吗?那不现实。
你需要构建一套自动化的评估流水线。
比如,用一个更强的模型作为裁判,来给你的小模型打分。这叫LLM-as-a-Judge。
你需要研究如何设计这个裁判的prompt,让它的打分跟人类的体感一致。

现在企业里落地大模型,70%的时间花在搞评测集上。没有评测,任何优化都是盲人摸象。你改了个prompt,感觉好像变好了,结果上线一跑,长尾query崩了一大片。
你要学会怎么量化智能。怎么定义幻觉率?怎么定义指令遵循能力?

阶段六:多模态与未来

你提到了Janus Pro,这很好,而且你眼光很毒。

DeepSeek在2025年初搞出来的Janus-Pro-7B确实牛逼。它走的是原生多模态Native Multimodal的路子,把视觉理解和图像生成统一了,而且解耦了视觉编码路径。这玩意儿在指令跟随和稳定性上甚至干翻了一些专有模型。

多模态绝对是接下来的主战场。但未来的趋势是更极致的端到端。

对于这块,我的建议是:关注Tokenization和长上下文

现在的图像还是被切成patch变成token喂进去的。但视频怎么切?音频怎么切?
怎么在极长的context window下处理一段1小时的视频?这里面涉及到的稀疏注意力机制Sparse Attention是当下的前沿。

去跟进一下Ring Attention的技术。这玩意儿是为了解决百万级token训练而生的,也是现在多模态视频模型、世界模型LWM背后的关键技术。
去看看Llava系列的演进,从最简单的projection layer到复杂的各种instruction tuning。

你看,我这一路说下来,没让你去考个证,也没让你去背八股文。

所谓的入坑,其实就是建立掌控感

你之前觉得虚,是因为你在用黑盒。
如果你能做到:

  1. 代码层:用nanochat手搓模型结构,理解每一个矩阵乘法。
  2. 数据层:玩转FineWeb v1.4,懂得Phi-4那种教科书级的数据合成方法。
  3. 训练层:对着OLMo 3的WandB日志,看懂loss曲线的每一次波动。
  4. 系统层:用vLLM V1把GPU性能压榨到极致,懂得量化和推理加速。
  5. 业务层:用DSPy优化你的Agent,建立一套科学的评估体系。

这五条线,随便哪一条拎出来深挖,都够你吃十年的。

别觉得这些东西太深太难。现在的技术迭代速度,大家都在同一起跑线上。那些所谓的专家,无非就是比你早几个月看了那部分源码,比你多跑崩了几次集群而已。

你要做的,是把心态慢下来。别天天盯着HuggingFace上又出了哪个新模型,赶紧去跑个demo发朋友圈。那没用。

你静下心来,花一个月时间,把vLLM的源码啃一遍,或者把自己做过的RAG系统的检索链路彻底重构一遍,加上各种rerank和query rewrite策略,并且做一套完整的评测集。

那时候,你就不是在求入坑指南了,你就是那个给别人指路的人。

这个行业现在太浮躁了,沉得下心来搞底层工程和数据科学的人,真的太少太少了。

希望在这个坑底,能见到你的身影。加油。

More to Explore

Discussion