Uncategorized 2025年12月9日 42 min read

知乎科研好文


看到你说研0非LLM相关,手里没大算力,又觉得RAG和Agent偏工程没什么可研究的,我仿佛看到了五六年前那一波做CV的学生,也是对着ImageNet的大模型望洋兴叹。但其实,咱们得把思路打开,算力贫民窟里也能炼出金子,而且往往这地方出来的东西,比堆算力更有思考深度。

我们要先打破一个巨大的误区,就是觉得只有预训练Pre-training才叫研究,只有跑得动70B甚至更大的模型才叫搞LLM。这个观点在大厂里盛行,是因为他们有卡,他们有资本去烧。但作为学术界,尤其是作为一个独立的研究者,拼算力你永远拼不过OpenAI和Google,这就像你非要跟法拉利比谁跑直线跑得快,必输无疑。我们得比过弯,比技巧,比对原理的理解。

这就引出了第一个极具价值且极其缺人的方向,那就是数据中心AI,Data Centric AI。现在业界有一个共识,模型架构的红利已经吃得差不多了,Transformer统治天下,改个Attention机制带来的提升微乎其微,真正的瓶颈在数据。以前大家是把数据当矿,模型是炼丹炉,现在你得反过来想,如何用小模型去清洗、筛选、合成高质量的数据,去喂给大模型,或者用高质量数据训练小模型达到大模型的效果。

你如果关注去年的微软Phi系列论文,就会发现一个惊人的事实。Phi-1那篇论文Textbooks Are All You Need是一个非常好的切入点,它证明了只要数据质量足够高,哪怕只有1.3B参数的模型,也能在代码生成任务上打败几十倍大的模型。这背后的逻辑是,现在的互联网语料充满了噪音和垃圾,模型花了大量算力去学习不需要学习的废话。如果你能研究出一套高效的数据筛选算法,或者一种利用现有LLM生成高质量合成数据Synthetic Data的方法,这本身就是顶级的科研成果。你可以去研究怎么用一个小一点的模型,比如Llama-3-8B,通过Prompt工程或者思维链CoT,让它生成高质量的教科书级别的语料,然后研究这些语料的分布特征。这不需要大算力,只需要你对数据有极强的敏感度。

紧接着数据问题,我们不得不面对另一个被严重低估的领域,那就是评估Evaluation。你可能觉得评估不就是跑个分吗?大错特错。现在的LLM评估处于一个非常混乱的阶段,传统的BLEU、ROUGE指标在生成式任务下基本失效,而MMLU、GSM8K这些榜单又面临着严重的刷榜和数据泄露问题。你训练了一个模型,或者设计了一个RAG系统,你怎么证明它比别人的好?光靠人看是不行的。

这里面大有文章可做。你可以研究LLM-as-a-Judge,也就是用大模型去评估小模型。这里面的偏差Bias怎么消除?位置偏差Position Bias怎么处理?模型是不是倾向于更长的回答?这都是非常硬核的研究点。加州伯克利分校发布的Chatbot Arena是一个很好的参考案例,他们引入了人类投票和Elo积分系统,但这个成本高。作为一个学生,你可以去研究如何设计一套自动化、低成本且与人类偏好高度对齐的评估框架。比如,针对Agent任务,怎么评估它的规划能力?针对RAG,怎么评估它的召回准确率和生成忠实度?这不需要几百张卡,只需要你调用API或者跑个本地的7B模型就能做实验。RAGAS这个项目就是一个很好的例子,它定义了一套针对RAG的评估指标,现在已经成了行业标准之一。

说到这里,我们必须把话题拉回到你提到的RAG和Agent。你觉得它们偏工程,没什么研究的地方,这个观点我得给你纠正一下。目前的RAG确实很多是工程拼接,切块、向量化、检索、生成,完事。但这是最浅层的RAG。如果你想搞清楚工业界到底在怎么折腾这些细节,以及这里面到底藏着多少还没解决的痛点,可以看那份流传很广的字节跳动RAG实践手册。它把从数据准备到检索优化的全流程都拆解了,每一个工程环节的背后,其实都站着一个亟待解决的学术问题,而学术界关注的正是这些Retrieval Augmented Generation深层次的机理。

比如,检索到的片段如果包含冲突信息怎么办?模型是会听检索的,还是听自己预训练记忆的?这个幻觉Hallucination的边界在哪里?你可以设计实验去探究模型在面对冲突上下文时的行为模式,这叫Counterfactual Evaluation反事实评估。又或者,现在的向量检索是基于语义相似度的,但语义相似不代表逻辑相关。有时候问题的答案在文档的某一个角落,和问题的语义距离很远。如何训练一个针对RAG的重排序模型Reranker,或者设计一种混合检索Hybrid Search的算法,这绝对是硬核算法研究。

甚至,你可以去研究Graph RAG,把知识图谱引入进来。传统的RAG是扁平的,文档切片之间没有关系。但是知识图谱有实体和关系。如何把结构化的图谱信息和非结构化的向量检索结合起来?这涉及图神经网络GNN和LLM的融合,这可是现在的深水区。你完全可以在小规模数据集上验证你的想法,不需要跑全量的维基百科。

我们顺着RAG的逻辑再往下挖,就会碰到Agent。你觉得Agent只是调调API,写写Prompt吗?那只是应用层。真正的Agent研究是在探索大模型的认知边界。比如规划Planning能力。模型能不能真的像人一样拆解复杂任务?现在的ReAct、Tree of Thoughts这些框架,本质上是在用工程手段弥补模型推理能力的不足。

你如果去读斯坦福那篇著名的Generative Agents,就是那个搞了25个AI在一个虚拟小镇生活的论文,你会发现它研究的不是模型本身,而是记忆Memory的架构。它设计了短期记忆、长期记忆、反思Reflection机制。作为一个学生,你完全可以复刻并改进这种架构。你可以研究怎么让Agent在长周期任务中保持一致性,怎么解决误差累积Error Propagation的问题。Agent一旦第一步错了,后面全错,有没有一种自我修正Self-Correction的机制?这不需要训练模型,需要的是设计精巧的认知架构。

这就不得不提现在非常火的一个方向,就是让LLM去写代码来解决问题,而不是直接回答问题。像Program of Thoughts,或者最近很火的DSPy框架,它们把提示词工程变成了一种编程范式。你可以研究如何自动优化这些提示词策略。DSPy的核心思想是把Prompt当成模型参数来优化,通过编译器的思路来提升LM的效果。这种研究非常前沿,而且对算力要求极低,因为它本质上是在搜索最优的上下文组合。

如果我们把视角往回拉一点,回到模型本身,虽然我们不能预训练,但我们可以做高效微调PEFT。LoRA和QLoRA的出现就是为了解决大家穷的问题。但是LoRA就是终点吗?显然不是。现在的LoRA通常是全层或者特定层微调,你能不能研究出一种动态的LoRA,根据输入样本的难易程度,自适应地选择微调哪些秩Rank?或者研究LoRA在多任务学习下的表现,怎么解决灾难性遗忘Catastrophic Forgetting?这些实验在单张3090甚至2080Ti上就能跑。

而且,量化Quantization也是一个被误以为是纯工程的学术金矿。大家都知道4-bit量化,那能不能做2-bit?甚至1.58-bit?最近微软出的那个BitNet b1.58,把权重压到了三元值{-1, 0, 1},这直接挑战了Transformer的底层计算逻辑。虽然复现BitNet可能需要算力,但你可以研究现有的模型量化后的行为变化。比如量化会不会损害模型的逻辑推理能力?会不会更容易产生幻觉?这种关于模型行为学的研究,非常有价值。

这就触及到了一个我个人非常推崇,也非常适合独立研究者的领域,那就是机械可解释性Mechanistic Interpretability。这名字听着就高大上,它的核心目标是搞清楚黑盒子里到底发生了什么。我们知道Transformer有Attention,有MLP,但具体的每一个神经元,每一个Attention Head在干什么?

Anthropic在这方面做了大量工作,他们发现了一些有趣的回路Circuits,比如Induction Heads,这东西专门负责复制上下文里的模式,是模型拥有上下文学习In-Context Learning能力的关键。你不需要70B的模型,你只需要一个GPT-2规模的小模型,甚至几层的小Transformer,就能去研究这些微观机制。你可以把这想象成神经科学,我们在给大脑做手术。你可以去研究,当模型在这个Token上输出这个词的时候,是哪一层、哪个Head起了决定性作用?如果你抑制了这个Head,模型的行为会怎么变?这种研究不需要大数据,不需要大算力,需要的是极其缜密的逻辑和数学直觉。Neel Nanda有很多关于这方面的教程和工具库,比如TransformerLens,这绝对是宝藏。

除了这些,还有一个非常冷门但极具潜力的方向,就是小模型的极限推理。现在大家都在卷大模型,但是端侧模型On-device LLM才是未来的蓝海。如何在2B甚至1B的参数量下,保留模型的推理能力?这涉及到知识蒸馏Knowledge Distillation。你可以研究怎么把GPT-4的推理过程蒸馏给一个极小的学生模型。不仅仅是蒸馏答案,而是蒸馏思维过程CoT。Google的Distilling Step-by-Step就是这方面的先驱。你可以尝试用更小的模型架构,比如SSM状态空间模型Mamba,或者RWKV,去在这个量级上挑战Transformer。这些非Transformer架构在长序列处理上有着天然的计算优势,而且训练成本相对较低,非常适合学生去探索。

这时候你可能会问,这么多方向,我怎么切入?我的建议是,抓住一个具体的、反直觉的现象去深挖。不要试图去搞一个通用的、大一统的理论。比如,你就研究长上下文Long Context下的迷失现象。为什么把相关信息放在Prompt中间,模型就找不到了?这叫Lost in the Middle。你能不能通过改变位置编码,或者改变Attention Mask的方式来解决这个问题?

又或者,你去研究对抗攻击Adversarial Attack。现在的LLM虽然经过了对齐,但依然很脆弱。你能不能找到一种通用的后缀,加在任何Prompt后面,就能让模型绕过安全检查?这叫Jailbreak。这方面的研究既有趣,又对安全性至关重要,而且完全不需要训练模型,只需要做推理攻击。卡内基梅隆大学有一篇Universal and Transferable Adversarial Attacks on Aligned Language Models,简直就是这个领域的教科书,你看他们怎么通过梯度搜索找到那些乱码一样的攻击字符串的,这才是真正的黑客精神与学术的结合。

还有一点,千万不要忽视了传统的NLP任务与LLM的结合。比如信息抽取Information Extraction。以前我们用BERT做命名实体识别NER,现在用LLM做,效果好,但成本高。你能不能研究一种少样本Few-shot的策略,让小模型在特定领域的抽取任务上达到大模型的效果?这在医疗、法律这些垂直领域非常有价值。垂直领域的微调和适配,是现在创业和落地最火的方向,作为学生,你可以找一个公开的法律文书数据集或者医疗问答数据集,去摸索一套Domain Adaptation的最佳实践。

我们再把思维发散一下,思考一下多模态。虽然训练多模态模型很贵,但是利用现有的多模态模型做研究很便宜。比如CLIP结合LLM。你可以研究怎么用LLM来增强视觉理解。现在的LLM可以生成代码,那能不能让它生成一段Python代码去调用OpenCV处理图片,然后再回答问题?这叫Visual Programming。这种Visual ChatGPT的思路,本质上是把视觉问题转化为了语言和逻辑问题,这恰恰避开了昂贵的视觉模型训练,而是利用了LLM强大的规划能力。

这背后其实有一个更宏大的哲学逻辑,就是System 1和System 2的融合。System 1是直觉,是快思考,就是现在的LLM,给它一个Token,它预测下一个,这是本能。System 2是逻辑,是慢思考,是搜索,是规划。AlphaGo能赢是因为它有蒙特卡洛树搜索MCTS。现在的大模型缺乏这个。你能不能设计一种机制,让LLM在回答复杂问题时,不要急着输出,而是先在内部构建一棵思维树,进行搜索和剪枝,确定了路径再输出?这方面的研究,比如Tree of Thoughts,比如Reasoning via Planning,都是在尝试赋予模型System 2的能力。这不需要你重新训练模型,而是需要你在推断阶段Inference Time做文章。

说到Inference Time Compute,这是一个非常性感的词。最近OpenAI的Q* 传闻,虽然不知道真假,但核心思想就是用推断时的算力换取智能。作为学生,你没有训练时的算力,但你肯定有一点推断时的算力。你怎么利用这一点点算力,通过多轮对话、自我反思、多数投票,让一个7B模型的表现提升到13B甚至70B的水平?这叫Test-time Augmentation。这绝对是未来的一个大方向,因为模型做大了很难,但在端侧多花几秒钟思考是完全可行的。

再给你指一条路,关于Agent的社会学模拟。斯坦福那个虚拟小镇只是个开始。你可以构建一个基于LLM的狼人杀游戏环境,或者一个模拟的软件开发公司。研究这些Agent在协作过程中会出现什么涌现Emergent行为。比如,它们会不会自发地形成领导者?会不会出现欺骗?会不会出现特定的沟通方言?这种基于Agent的社会模拟Social Simulation,是计算社会学和AI的交叉点,非常新颖,而且对计算机算力要求不高,更多的是对实验设计的考验。

所以你看,抛开预训练,抛开千亿参数,我们还有广阔的天地。数据合成、自动化评估、机械可解释性、高效微调、量化分析、检索增强机理、认知架构设计、推断时计算、Agent社会模拟。每一个方向钻进去,都足够你写出一篇顶会级别的论文。

关键在于,你要摆脱那种我要炼一个大模型的执念。你要把自己定位成一个解剖学家,一个精密的钟表匠,或者一个社会观察家。你用现有的、开源的、小规模的模型作为你的实验对象,去探究智能的本质,去优化系统的效率,去解决具体的Corner Case。

最后,我要提醒你,在这个领域,阅读量比算力更重要。你没有GPU,但你有arXiv。每天早上起来刷一下Hugging Face的Daily Papers,看看大家都在玩什么新花样。很多时候,一个好的Idea并不需要复杂的数学,而是需要一个巧妙的视角。比如Simulacra of Creativity这篇论文,它探讨了生成式AI如何通过复制和重组来产生看似创新的内容,这完全是理论层面的深度思考,非常有启发性。如果你觉得论文浩如烟海不知从何下手,可以去看这份整理好的大模型237篇必读论文合集,涵盖了从语音基础、Prompt工程到检索增强生成的各个角落。先把这些经典读透,构建起你的知识体系,这比盲目跑代码重要得多。

当你觉得RAG没意思的时候,去看看LangChain或者LlamaIndex的源码,看看他们怎么解决长文档切片边界的问题;当你觉得Agent就是玩具的时候,去看看AutoGPT为什么会陷入死循环,试着动手写几行代码帮它跳出来。

在没有显卡的日子里,让你的大脑成为算力最强的GPU。毕竟,Transformer那篇论文出来的时候,Google的算力也就是现在的零头,但那个Idea,照亮了后面这七年的路。你要做的,就是找到那个Idea。

More to Explore

Discussion