千羽鶴
Search
CTRL + K
千羽鶴
Search
CTRL + K
c++ primer plus
using和namespace
关于过程编程,面向对象编程和泛型编程
函数声明
初始化
局部和全局的命名空间引入
leetcode
滑动窗口
定长滑动
半径为k的子数组平均值
大小为k平均值大于等于阈值的子数组个数
定长子串中元音的最大数目
链表
分隔链表
合并零之间的节点
thino
2024-12-25
transformer
什么是transformer
大语言模型学习
Attention注意力机制
Attention机制详解与应用
DCA:长文本处理的新突破(Dual Chunk Attention)
KV Cache技术详解:优化Transformer自回归生成效率
Transformer中的Attention详解与应用指南
【长上下文模型优化】基于Shifted Sparse Attention的创新方法
优化Attention计算复杂度的技术探讨
深度学习中的注意力机制优化:从MHA到MLA
Common Models常见模型
BERT及其变体
BART
RoBERTa
T5
介绍
DeepSeek系列
Deepseek-math
DeepSeek-R1
Deepseek-V1
DeepSeek-V2
DeepSeek-V3
GLM系列
GLM1
GLM2
GLM3
GLM4
GPT系列
GPT-1
GPT-2
GPT-3
LLama系列
LLama 2
LLama 3
LLaMA1
MOE系列
GShard
Mistral
Switch Transformer
PLaM系列
PLaM
PLaM2
Qwen系列
Qwen1
Qwen2.5
Qwen2
发展历史
FFN、Add & LN 的作用与应用
Transformer核心模块解析:FFN、Add & LN 的作用与应用
深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
激活函数详解与比较:从Sigmoid到Swish
MCP
介绍
Positional Encoding位置编码
相对位置编码
DeBERTa的相对位置编码与绝对位置编码解析
T5模型与相对位置编码优化解析
相对位置编码与XLNet位置编码详解 深入理解Transformer机制
绝对位置编码
BERT与RNN位置编码的对比与应用
Transformer绝对位置编码详解与改进分析
NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
介绍
位置内插法扩展语言模型上下文长度
数字输入优化与外推方法解析
旋转位置编码与ALiBi:深度学习中的位置嵌入优化
Pre-training 预训练
预训练过程
训练Tokenizer
预训练的Scaling Law
预训练策略
高效深度学习模型训练框架选择与优化指南
推理耗时
数据多样性与模型优化探索
数据清洗
数据爬取
数据配比与训练顺序优化指南
模型打分与数据去重
深度学习中的显存优化与梯度处理方法
混合精度训练
继续预训练
训练容灾及训练监控
预训练定义以及数据来源
预训练评估
预训练评估2
RL强化学习基础
DPO直接偏好优化
DPO介绍及RLHF-PPO缺点
DPO公式推导
人类建模偏好角度理解DPO
对比学习角度理解DPO
深度偏好优化(DPO)损失函数解析与代码示例
LoRA及其变体
AdaLoRA
DoRA
LoRA+
LoRA-FA
LoRA
QLoRA
VeRA
X-LoRA
参考文献
PEFT参数高效微调
LLaMA-Adapter
P-Tuning V2
P-Tuning
Prefix-Tuning
Prompt Tuning
介绍
RLHF基于人类反馈的强化学习
Actor-Model
critic-model
Instruct-GPT
Reference-Model
Reward-Model
RLHF流程
RLHF研究方法及研究总结
RL在NLP场景下的拓展
在线与离线RLHF的比较与应用
深入理解Prompt到Response的MDP模型分析
优化DPO方向的算法
DPOP
Self-Reward
TDPO
优化PPO方向的算法
DAPO
GRPO
REINFORCE算法改进:RLOO与REINFORCE++
ReMax-improvement
ReMax
VAPO
Actor-Critic算法
PPO算法
PPO训练的trick和问题
RL在NLP场景下的拓展
SARSA-λ与Q-learning对比
SARSA算法
价值迭代算法
强化学习分类
强化学习的独特性
强化学习问题,流程
时序差分算法
深度Q网络
策略梯度算法
策略迭代算法
蒙特卡洛方法
贝尔曼方程
马尔可夫决策过程
Structure & Decoding Policy 结构和解码策略
大模型结构与混合专家(LLM & MoE)解析
深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
解码采样策略:Greedy Search与Beam Search的实现与优化
分词
BBPE:字节级别的BPE分词技术解析与应用
WordPiece分词算法解析与实践
使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践
使用Unigram语言模型(ULM)优化分词算法:核心思路与实践
分词算法的比较
常用分词库
后训练
SFT监督微调
SFT数据及处理
开源数据集
数据多样性探索
数据生产合成与质量过滤
数据飞轮在SFT中的应用与优化
STF训练
多轮对话专项提升
多轮对话专项提升2
训练启动脚本
训练技巧和训练策略
训练框架及参数设置
监督微调与预训练的区别
大模型应用
LLM-based Agent 基于大模型的智能体
Agent评估框架汇总
基于大模型的智能体原理
定义以及历史发展
智能体的分类
智能体的框架和应用
智能体系统分类
RAG检索增强生成
RAG优化
RAG优化中查询索引阶段
RAG方向
RAG流程和分类
RAG评估
固定长度分块
基于大模型的分块
基于文档结构分块
基于语义分块
常见索引优化算法实现
Prompt Tech 提示技术
模型压缩
Knowledge Distillation 知识蒸馏
Low-Rank Factorization 低秩分解
介绍
模型剪枝
模型量化
训练推理优化
FlashAttention
FlashAttention Forword流程
介绍
标准Attention与Safe softmax
计算与内存限制
推理框架
HuggingFace TGI
vLLM
推理耗时及优化
推理耗时
首Token时延优化
训练推理显存占用分析
显存优化与推理显存分析
模型显存总体分析
训练阶段的显存分析
训练框架
Accelerate
DeepSpeed
Megatron-LM
Megatron和DeepSpeed后端实现的区别
X-ray
PageAttention原理
大模型的packing技巧
词嵌入
FastText
oneHot
Word2Vec
介绍
导航
机器学习
单变量线性回归
关于逻辑回归中的代价函数
关于逻辑回归的思考
机器学习引言
毕业设计
学习资料
Welcome🎉
关于大语言模型学习导航
大语言模型学习
Attention注意力机制
Attention机制详解与应用
DCA:长文本处理的新突破(Dual Chunk Attention)
KV Cache技术详解:优化Transformer自回归生成效率
Transformer中的Attention详解与应用指南
【长上下文模型优化】基于Shifted Sparse Attention的创新方法
优化Attention计算复杂度的技术探讨
深度学习中的注意力机制优化:从MHA到MLA
FFN、Add & LN 的作用与应用
Transformer核心模块解析:FFN、Add & LN 的作用与应用
深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
激活函数详解与比较:从Sigmoid到Swish
Positional Encoding位置编码
NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
位置编码介绍
位置内插法扩展语言模型上下文长度
数字输入优化与外推方法解析
旋转位置编码与ALiBi:深度学习中的位置嵌入优化
相对位置编码
DeBERTa的相对位置编码与绝对位置编码解析
T5模型与相对位置编码优化解析
相对位置编码与XLNet位置编码详解 深入理解Transformer机制
绝对位置编码
BERT与RNN位置编码的对比与应用
Transformer绝对位置编码详解与改进分析
Pre-training 预训练
大语言模型学习/Pre-training 预训练/推理耗时
数据多样性与模型优化探索
数据清洗
数据爬取
数据配比与训练顺序优化指南
模型打分与数据去重
深度学习中的显存优化与梯度处理方法
混合精度训练
继续预训练
训练容灾及训练监控
预训练定义以及数据来源
预训练评估
预训练评估2
预训练过程
训练Tokenizer
预训练的Scaling Law
预训练策略
高效深度学习模型训练框架选择与优化指南
RL强化学习基础
SARSA-λ与Q-learning对比
SARSA算法
价值迭代算法
强化学习分类
强化学习的独特性
强化学习问题,流程
时序差分算法
深度Q网络
策略迭代算法
蒙特卡洛方法
贝尔曼方程
马尔可夫决策过程
Structure & Decoding Policy 结构和解码策略
大模型结构与混合专家(LLM & MoE)解析
深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
解码采样策略:Greedy Search与Beam Search的实现与优化
分词
BBPE:字节级别的BPE分词技术解析与应用
WordPiece分词算法解析与实践
使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践
使用Unigram语言模型(ULM)优化分词算法:核心思路与实践
分词算法的比较
常用分词库
后训练
SFT监督微调
SFT数据及处理
开源数据集
数据多样性探索
数据生产合成与质量过滤
数据飞轮在SFT中的应用与优化
STF训练
多轮对话专项提升
多轮对话专项提升2
训练启动脚本
训练技巧和训练策略
训练框架及参数设置
监督微调与预训练的区别
词嵌入
FastText
oneHot
Word2Vec
词嵌入介绍