导航
分词
词嵌入
Attention
- Attention机制详解与应用
- Transformer中的Attention详解与应用指南
- 优化Attention计算复杂度的技术探讨
- KV Cache技术详解:优化Transformer自回归生成效率
- 深度学习中的注意力机制优化:从MHA到MLA
- DCA:长文本处理的新突破(Dual Chunk Attention)
- 【长上下文模型优化】基于Shifted Sparse Attention的创新方法
FFN,Add&LN
- Transformer核心模块解析:FFN、Add & LN 的作用与应用
- 深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
- 激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
- 激活函数详解与比较:从Sigmoid到Swish
Positional Encoding
- 介绍
- Transformer绝对位置编码详解与改进分析
- BERT与RNN位置编码的对比与应用
- 相对位置编码与XLNet位置编码详解 深入理解Transformer机制
- T5模型与相对位置编码优化解析
- DeBERTa的相对位置编码与绝对位置编码解析
- 旋转位置编码与ALiBi:深度学习中的位置嵌入优化
- 数字输入优化与外推方法解析
- 位置内插法扩展语言模型上下文长度
- NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
- YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
Structure & Decoding Policy 结构和解码策略
- 大模型结构与混合专家(LLM & MoE)解析
- 解码采样策略:Greedy Search与Beam Search的实现与优化
- 深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
Pre-training 预训练
- 预训练定义以及数据来源
- 数据爬取
- 数据清洗
- 模型打分与数据去重
- 数据多样性与模型优化探索
- 数据配比与训练顺序优化指南
- 训练Tokenizer
- 高效深度学习模型训练框架选择与优化指南
- 预训练策略
- 训练容灾及训练监控
- 预训练的Scaling Law
- 混合精度训练
- 深度学习中的显存优化与梯度处理方法
- 继续预训练
- 推理耗时
- 预训练评估
- 预训练评估2
后训练
强化学习基础
- 强化学习问题,流程
- 强化学习的独特性
- 马尔可夫决策过程
- 贝尔曼方程
- 蒙特卡洛方法
- 策略迭代算法
- 价值迭代算法
- 时序差分算法
- SARSA算法
- SARSA-λ与Q-learning对比
- 强化学习分类
- 深度Q网络
- 策略梯度算法
- Actor-Critic算法
- PPO算法
- RL在NLP场景下的拓展
- RL在NLP场景下的拓展
- RLHF流程
- RLHF研究方法及研究总结
- Instruct-GPT
- Actor-Model
- critic-model
- Reward-Model
- 深入理解Prompt到Response的MDP模型分析
- Reference-Model
- 在线与离线RLHF的比较与应用
- PPO训练的trick和问题
- GRPO
- ReMax-improvement
- ReMax
- REINFORCE算法改进:RLOO与REINFORCE++
- DAPO
- VAPO
- DPO介绍及RLHF-PPO缺点
- DPO公式推导
- 深度偏好优化(DPO)损失函数解析与代码示例
- 人类建模偏好角度理解DPO
- 对比学习角度理解DPO
- DPOP
- TDPO
- Self-Reward
- 介绍
- Prompt Tuning
- P-Tuning
- Prefix-Tuning
- P-Tuning V2
- LLaMA-Adapter
- LoRA
- QLoRA
- LoRA+
- VeRA
- LoRA-FA
- AdaLoRA
- DoRA
- X-LoRA
- 参考文献
Common Models
- 发展历史
- 介绍
- BART
- T5
- DeBERTa
- RoBERTa
- 未命名 1
- PLaM
- PLaM2
- GPT-1
- GPT-2
- GPT-3
- LLaMA1
- LLama 2
- CodeLlama
- LLama 3
- GLM1
- GLM2
- GLM3
- GLM4
- Qwen1
- Qwen2
- Qwen2.5
- Deepseek-V1
- Deepseek-math
- DeepSeek-V2
- DeepSeek-V3
- DeepSeek-R1
- GShard
- Mistral
- Switch Transformer
训练推理优化
- 模型显存总体分析
- 训练阶段的显存分析
- 显存优化与推理显存分析
- 介绍
- 计算与内存限制
- 标准Attention与Safe softmax
- FlashAttention Forword流程
- PageAttention原理
- Megatron-LM
- DeepSpeed
- X-ray
- Accelerate
- Megatron和DeepSpeed后端实现的区别
- vLLM
- HuggingFace TGI
- 推理耗时
- 首Token时延优化
- 大模型的packing技巧