Rāna(Bass Ver.)

Search CTRL + K

Rāna(Bass Ver.)

Search CTRL + K

大语言模型学习

Attention注意力机制

Attention机制详解与应用

DCA：长文本处理的新突破（Dual Chunk Attention）

KV Cache技术详解：优化Transformer自回归生成效率

Transformer中的Attention详解与应用指南

【长上下文模型优化】基于Shifted Sparse Attention的创新方法

优化Attention计算复杂度的技术探讨

深度学习中的注意力机制优化：从MHA到MLA

Common Models常见模型

BERT及其变体

DeepSeek系列

GLM系列

GPT系列

LLama系列

MOE系列

Switch Transformer

PLaM系列

Qwen系列

FFN、Add & LN 的作用与应用

Transformer核心模块解析：FFN、Add & LN 的作用与应用

深度学习中的Layer Norm设计：Post-Norm、Pre-Norm与Sandwich-Norm比较

激活函数与FFN结构优化：SwiGLU、GeGLU及其应用解析

激活函数详解与比较：从Sigmoid到Swish

MCP

Positional Encoding位置编码

相对位置编码

DeBERTa的相对位置编码与绝对位置编码解析

T5模型与相对位置编码优化解析

相对位置编码与XLNet位置编码详解深入理解Transformer机制

绝对位置编码

BERT与RNN位置编码的对比与应用

Transformer绝对位置编码详解与改进分析

NTK插值方法解析与优化：从NTK-aware到NTK-by-parts

YaRN方法解析：扩展RoPE嵌入与注意力优化的实践

位置内插法扩展语言模型上下文长度

数字输入优化与外推方法解析

旋转位置编码与ALiBi：深度学习中的位置嵌入优化

Pre-training 预训练

预训练过程

训练Tokenizer

预训练的Scaling Law

预训练策略

高效深度学习模型训练框架选择与优化指南

数据多样性与模型优化探索

数据配比与训练顺序优化指南

模型打分与数据去重

深度学习中的显存优化与梯度处理方法

混合精度训练

继续预训练

训练容灾及训练监控

预训练定义以及数据来源

预训练评估

预训练评估2

RL强化学习基础

DPO直接偏好优化

DPO介绍及RLHF-PPO缺点

DPO公式推导

人类建模偏好角度理解DPO

对比学习角度理解DPO

深度偏好优化（DPO）损失函数解析与代码示例

LoRA及其变体

PEFT参数高效微调

RLHF基于人类反馈的强化学习

Reference-Model

RLHF研究方法及研究总结

RL在NLP场景下的拓展

在线与离线RLHF的比较与应用

深入理解Prompt到Response的MDP模型分析

优化DPO方向的算法

优化PPO方向的算法

REINFORCE算法改进：RLOO与REINFORCE++

ReMax-improvement

Actor-Critic算法

PPO训练的trick和问题

RL在NLP场景下的拓展

SARSA-λ与Q-learning对比

价值迭代算法

强化学习分类

强化学习的独特性

强化学习问题,流程

时序差分算法

策略梯度算法

策略迭代算法

蒙特卡洛方法

贝尔曼方程

马尔可夫决策过程

Structure & Decoding Policy 结构和解码策略

大模型结构与混合专家（LLM & MoE）解析

深度解析语言模型采样方法：Top-K、Top-P、Temperature及综合策略

解码采样策略：Greedy Search与Beam Search的实现与优化

分词

BBPE：字节级别的BPE分词技术解析与应用

WordPiece分词算法解析与实践

使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践

使用Unigram语言模型（ULM）优化分词算法：核心思路与实践

分词算法的比较

常用分词库

后训练

SFT监督微调

SFT数据及处理

开源数据集

数据多样性探索

数据生产合成与质量过滤

数据飞轮在SFT中的应用与优化

STF训练

多轮对话专项提升

多轮对话专项提升2

训练启动脚本

训练技巧和训练策略

训练框架及参数设置

监督微调与预训练的区别

大模型应用

LLM-based Agent 基于大模型的智能体

Agent评估框架汇总

基于大模型的智能体原理

定义以及历史发展

智能体的分类

智能体的框架和应用

智能体系统分类

RAG检索增强生成

RAG优化中查询索引阶段

RAG流程和分类

固定长度分块

基于大模型的分块

基于文档结构分块

基于语义分块

常见索引优化算法实现

Prompt Tech 提示技术

模型压缩

Knowledge Distillation 知识蒸馏

Low-Rank Factorization 低秩分解

训练推理优化

FlashAttention

FlashAttention Forword流程

标准Attention与Safe softmax

计算与内存限制

推理框架

HuggingFace TGI

推理耗时及优化

首Token时延优化

训练推理显存占用分析

显存优化与推理显存分析

模型显存总体分析

训练阶段的显存分析

训练框架

Megatron和DeepSpeed后端实现的区别

PageAttention原理

大模型的packing技巧

词嵌入

Enter to select

to navigate

ESC to close

关于大语言模型学习导航

大语言模型学习

Connected Pages

Depth

On this page

关于大语言模型学习导航

Pages mentioning this page

No other pages mentions this page