知乎科研好文

看到你说研0非LLM相关，手里没大算力，又觉得RAG和Agent偏工程没什么可研究的，我仿佛看到了五六年前那一波做CV的学生，也是对着ImageNet的大模型望洋兴叹。但其实，咱们得把思路打开，算力贫民窟里也能炼出金子，而且往往这地方出来的东西，比堆算力更有思考深度。

我们要先打破一个巨大的误区，就是觉得只有预训练Pre-training才叫研究，只有跑得动70B甚至更大的模型才叫搞LLM。这个观点在大厂里盛行，是因为他们有卡，他们有资本去烧。但作为学术界，尤其是作为一个独立的研究者，拼算力你永远拼不过OpenAI和Google，这就像你非要跟法拉利比谁跑直线跑得快，必输无疑。我们得比过弯，比技巧，比对原理的理解。

这就引出了第一个极具价值且极其缺人的方向，那就是数据中心AI，Data Centric AI。现在业界有一个共识，模型架构的红利已经吃得差不多了，Transformer统治天下，改个Attention机制带来的提升微乎其微，真正的瓶颈在数据。以前大家是把数据当矿，模型是炼丹炉，现在你得反过来想，如何用小模型去清洗、筛选、合成高质量的数据，去喂给大模型，或者用高质量数据训练小模型达到大模型的效果。

你如果关注去年的微软Phi系列论文，就会发现一个惊人的事实。Phi-1那篇论文Textbooks Are All You Need是一个非常好的切入点，它证明了只要数据质量足够高，哪怕只有1.3B参数的模型，也能在代码生成任务上打败几十倍大的模型。这背后的逻辑是，现在的互联网语料充满了噪音和垃圾，模型花了大量算力去学习不需要学习的废话。如果你能研究出一套高效的数据筛选算法，或者一种利用现有LLM生成高质量合成数据Synthetic Data的方法，这本身就是顶级的科研成果。你可以去研究怎么用一个小一点的模型，比如Llama-3-8B，通过Prompt工程或者思维链CoT，让它生成高质量的教科书级别的语料，然后研究这些语料的分布特征。这不需要大算力，只需要你对数据有极强的敏感度。

紧接着数据问题，我们不得不面对另一个被严重低估的领域，那就是评估Evaluation。你可能觉得评估不就是跑个分吗？大错特错。现在的LLM评估处于一个非常混乱的阶段，传统的BLEU、ROUGE指标在生成式任务下基本失效，而MMLU、GSM8K这些榜单又面临着严重的刷榜和数据泄露问题。你训练了一个模型，或者设计了一个RAG系统，你怎么证明它比别人的好？光靠人看是不行的。

这里面大有文章可做。你可以研究LLM-as-a-Judge，也就是用大模型去评估小模型。这里面的偏差Bias怎么消除？位置偏差Position Bias怎么处理？模型是不是倾向于更长的回答？这都是非常硬核的研究点。加州伯克利分校发布的Chatbot Arena是一个很好的参考案例，他们引入了人类投票和Elo积分系统，但这个成本高。作为一个学生，你可以去研究如何设计一套自动化、低成本且与人类偏好高度对齐的评估框架。比如，针对Agent任务，怎么评估它的规划能力？针对RAG，怎么评估它的召回准确率和生成忠实度？这不需要几百张卡，只需要你调用API或者跑个本地的7B模型就能做实验。RAGAS这个项目就是一个很好的例子，它定义了一套针对RAG的评估指标，现在已经成了行业标准之一。

说到这里，我们必须把话题拉回到你提到的RAG和Agent。你觉得它们偏工程，没什么研究的地方，这个观点我得给你纠正一下。目前的RAG确实很多是工程拼接，切块、向量化、检索、生成，完事。但这是最浅层的RAG。如果你想搞清楚工业界到底在怎么折腾这些细节，以及这里面到底藏着多少还没解决的痛点，可以看那份流传很广的字节跳动RAG实践手册。它把从数据准备到检索优化的全流程都拆解了，每一个工程环节的背后，其实都站着一个亟待解决的学术问题，而学术界关注的正是这些Retrieval Augmented Generation深层次的机理。

比如，检索到的片段如果包含冲突信息怎么办？模型是会听检索的，还是听自己预训练记忆的？这个幻觉Hallucination的边界在哪里？你可以设计实验去探究模型在面对冲突上下文时的行为模式，这叫Counterfactual Evaluation反事实评估。又或者，现在的向量检索是基于语义相似度的，但语义相似不代表逻辑相关。有时候问题的答案在文档的某一个角落，和问题的语义距离很远。如何训练一个针对RAG的重排序模型Reranker，或者设计一种混合检索Hybrid Search的算法，这绝对是硬核算法研究。

甚至，你可以去研究Graph RAG，把知识图谱引入进来。传统的RAG是扁平的，文档切片之间没有关系。但是知识图谱有实体和关系。如何把结构化的图谱信息和非结构化的向量检索结合起来？这涉及图神经网络GNN和LLM的融合，这可是现在的深水区。你完全可以在小规模数据集上验证你的想法，不需要跑全量的维基百科。

我们顺着RAG的逻辑再往下挖，就会碰到Agent。你觉得Agent只是调调API，写写Prompt吗？那只是应用层。真正的Agent研究是在探索大模型的认知边界。比如规划Planning能力。模型能不能真的像人一样拆解复杂任务？现在的ReAct、Tree of Thoughts这些框架，本质上是在用工程手段弥补模型推理能力的不足。

你如果去读斯坦福那篇著名的Generative Agents，就是那个搞了25个AI在一个虚拟小镇生活的论文，你会发现它研究的不是模型本身，而是记忆Memory的架构。它设计了短期记忆、长期记忆、反思Reflection机制。作为一个学生，你完全可以复刻并改进这种架构。你可以研究怎么让Agent在长周期任务中保持一致性，怎么解决误差累积Error Propagation的问题。Agent一旦第一步错了，后面全错，有没有一种自我修正Self-Correction的机制？这不需要训练模型，需要的是设计精巧的认知架构。

这就不得不提现在非常火的一个方向，就是让LLM去写代码来解决问题，而不是直接回答问题。像Program of Thoughts，或者最近很火的DSPy框架，它们把提示词工程变成了一种编程范式。你可以研究如何自动优化这些提示词策略。DSPy的核心思想是把Prompt当成模型参数来优化，通过编译器的思路来提升LM的效果。这种研究非常前沿，而且对算力要求极低，因为它本质上是在搜索最优的上下文组合。

如果我们把视角往回拉一点，回到模型本身，虽然我们不能预训练，但我们可以做高效微调PEFT。LoRA和QLoRA的出现就是为了解决大家穷的问题。但是LoRA就是终点吗？显然不是。现在的LoRA通常是全层或者特定层微调，你能不能研究出一种动态的LoRA，根据输入样本的难易程度，自适应地选择微调哪些秩Rank？或者研究LoRA在多任务学习下的表现，怎么解决灾难性遗忘Catastrophic Forgetting？这些实验在单张3090甚至2080Ti上就能跑。

而且，量化Quantization也是一个被误以为是纯工程的学术金矿。大家都知道4-bit量化，那能不能做2-bit？甚至1.58-bit？最近微软出的那个BitNet b1.58，把权重压到了三元值{-1, 0, 1}，这直接挑战了Transformer的底层计算逻辑。虽然复现BitNet可能需要算力，但你可以研究现有的模型量化后的行为变化。比如量化会不会损害模型的逻辑推理能力？会不会更容易产生幻觉？这种关于模型行为学的研究，非常有价值。

这就触及到了一个我个人非常推崇，也非常适合独立研究者的领域，那就是机械可解释性Mechanistic Interpretability。这名字听着就高大上，它的核心目标是搞清楚黑盒子里到底发生了什么。我们知道Transformer有Attention，有MLP，但具体的每一个神经元，每一个Attention Head在干什么？

Anthropic在这方面做了大量工作，他们发现了一些有趣的回路Circuits，比如Induction Heads，这东西专门负责复制上下文里的模式，是模型拥有上下文学习In-Context Learning能力的关键。你不需要70B的模型，你只需要一个GPT-2规模的小模型，甚至几层的小Transformer，就能去研究这些微观机制。你可以把这想象成神经科学，我们在给大脑做手术。你可以去研究，当模型在这个Token上输出这个词的时候，是哪一层、哪个Head起了决定性作用？如果你抑制了这个Head，模型的行为会怎么变？这种研究不需要大数据，不需要大算力，需要的是极其缜密的逻辑和数学直觉。Neel Nanda有很多关于这方面的教程和工具库，比如TransformerLens，这绝对是宝藏。

除了这些，还有一个非常冷门但极具潜力的方向，就是小模型的极限推理。现在大家都在卷大模型，但是端侧模型On-device LLM才是未来的蓝海。如何在2B甚至1B的参数量下，保留模型的推理能力？这涉及到知识蒸馏Knowledge Distillation。你可以研究怎么把GPT-4的推理过程蒸馏给一个极小的学生模型。不仅仅是蒸馏答案，而是蒸馏思维过程CoT。Google的Distilling Step-by-Step就是这方面的先驱。你可以尝试用更小的模型架构，比如SSM状态空间模型Mamba，或者RWKV，去在这个量级上挑战Transformer。这些非Transformer架构在长序列处理上有着天然的计算优势，而且训练成本相对较低，非常适合学生去探索。

这时候你可能会问，这么多方向，我怎么切入？我的建议是，抓住一个具体的、反直觉的现象去深挖。不要试图去搞一个通用的、大一统的理论。比如，你就研究长上下文Long Context下的迷失现象。为什么把相关信息放在Prompt中间，模型就找不到了？这叫Lost in the Middle。你能不能通过改变位置编码，或者改变Attention Mask的方式来解决这个问题？

又或者，你去研究对抗攻击Adversarial Attack。现在的LLM虽然经过了对齐，但依然很脆弱。你能不能找到一种通用的后缀，加在任何Prompt后面，就能让模型绕过安全检查？这叫Jailbreak。这方面的研究既有趣，又对安全性至关重要，而且完全不需要训练模型，只需要做推理攻击。卡内基梅隆大学有一篇Universal and Transferable Adversarial Attacks on Aligned Language Models，简直就是这个领域的教科书，你看他们怎么通过梯度搜索找到那些乱码一样的攻击字符串的，这才是真正的黑客精神与学术的结合。

还有一点，千万不要忽视了传统的NLP任务与LLM的结合。比如信息抽取Information Extraction。以前我们用BERT做命名实体识别NER，现在用LLM做，效果好，但成本高。你能不能研究一种少样本Few-shot的策略，让小模型在特定领域的抽取任务上达到大模型的效果？这在医疗、法律这些垂直领域非常有价值。垂直领域的微调和适配，是现在创业和落地最火的方向，作为学生，你可以找一个公开的法律文书数据集或者医疗问答数据集，去摸索一套Domain Adaptation的最佳实践。

我们再把思维发散一下，思考一下多模态。虽然训练多模态模型很贵，但是利用现有的多模态模型做研究很便宜。比如CLIP结合LLM。你可以研究怎么用LLM来增强视觉理解。现在的LLM可以生成代码，那能不能让它生成一段Python代码去调用OpenCV处理图片，然后再回答问题？这叫Visual Programming。这种Visual ChatGPT的思路，本质上是把视觉问题转化为了语言和逻辑问题，这恰恰避开了昂贵的视觉模型训练，而是利用了LLM强大的规划能力。

这背后其实有一个更宏大的哲学逻辑，就是System 1和System 2的融合。System 1是直觉，是快思考，就是现在的LLM，给它一个Token，它预测下一个，这是本能。System 2是逻辑，是慢思考，是搜索，是规划。AlphaGo能赢是因为它有蒙特卡洛树搜索MCTS。现在的大模型缺乏这个。你能不能设计一种机制，让LLM在回答复杂问题时，不要急着输出，而是先在内部构建一棵思维树，进行搜索和剪枝，确定了路径再输出？这方面的研究，比如Tree of Thoughts，比如Reasoning via Planning，都是在尝试赋予模型System 2的能力。这不需要你重新训练模型，而是需要你在推断阶段Inference Time做文章。

说到Inference Time Compute，这是一个非常性感的词。最近OpenAI的Q* 传闻，虽然不知道真假，但核心思想就是用推断时的算力换取智能。作为学生，你没有训练时的算力，但你肯定有一点推断时的算力。你怎么利用这一点点算力，通过多轮对话、自我反思、多数投票，让一个7B模型的表现提升到13B甚至70B的水平？这叫Test-time Augmentation。这绝对是未来的一个大方向，因为模型做大了很难，但在端侧多花几秒钟思考是完全可行的。

再给你指一条路，关于Agent的社会学模拟。斯坦福那个虚拟小镇只是个开始。你可以构建一个基于LLM的狼人杀游戏环境，或者一个模拟的软件开发公司。研究这些Agent在协作过程中会出现什么涌现Emergent行为。比如，它们会不会自发地形成领导者？会不会出现欺骗？会不会出现特定的沟通方言？这种基于Agent的社会模拟Social Simulation，是计算社会学和AI的交叉点，非常新颖，而且对计算机算力要求不高，更多的是对实验设计的考验。

所以你看，抛开预训练，抛开千亿参数，我们还有广阔的天地。数据合成、自动化评估、机械可解释性、高效微调、量化分析、检索增强机理、认知架构设计、推断时计算、Agent社会模拟。每一个方向钻进去，都足够你写出一篇顶会级别的论文。

关键在于，你要摆脱那种我要炼一个大模型的执念。你要把自己定位成一个解剖学家，一个精密的钟表匠，或者一个社会观察家。你用现有的、开源的、小规模的模型作为你的实验对象，去探究智能的本质，去优化系统的效率，去解决具体的Corner Case。

最后，我要提醒你，在这个领域，阅读量比算力更重要。你没有GPU，但你有arXiv。每天早上起来刷一下Hugging Face的Daily Papers，看看大家都在玩什么新花样。很多时候，一个好的Idea并不需要复杂的数学，而是需要一个巧妙的视角。比如Simulacra of Creativity这篇论文，它探讨了生成式AI如何通过复制和重组来产生看似创新的内容，这完全是理论层面的深度思考，非常有启发性。如果你觉得论文浩如烟海不知从何下手，可以去看这份整理好的大模型237篇必读论文合集，涵盖了从语音基础、Prompt工程到检索增强生成的各个角落。先把这些经典读透，构建起你的知识体系，这比盲目跑代码重要得多。

当你觉得RAG没意思的时候，去看看LangChain或者LlamaIndex的源码，看看他们怎么解决长文档切片边界的问题；当你觉得Agent就是玩具的时候，去看看AutoGPT为什么会陷入死循环，试着动手写几行代码帮它跳出来。

在没有显卡的日子里，让你的大脑成为算力最强的GPU。毕竟，Transformer那篇论文出来的时候，Google的算力也就是现在的零头，但那个Idea，照亮了后面这七年的路。你要做的，就是找到那个Idea。

知乎科研好文

More to Explore

风中凌乱，又是一年冬

重新构建对自己的认知

Discussion