Tags

Accuracy Recovery Adapters

Alternating Local Global Attention

Auxiliary Loss Free Load Balancing

Auxiliary Loss for Load Balance

Block Diagonal Attention Masking

Code Training Benefits Mathematical Reasoning

Collapsed Tree Retrieval

CommonCrawl Quality Filtering

Community Based Summarization

Community Detection For RAG

Computation Communication Overlap

Compute Optimal Scaling

Context Length Scaling

Contextual Flexibility Retrieval

Cross File Code Completion

Cross File Dependency Analysis

Decoupled Rotary Position Embedding

DeepSeekMath Corpus

DeepSeekMoE

Dependency Aware Training

Dependency Aware Tree Traversal

Depth Over Width Scaling

Device Limited Routing

Direct Preference Optimization

Distillation of Reasoning Capability

Dynamic Expert Routing

Economical Training

Efficient Cross Node All to All Communication

Efficient Encoder Pretraining

Efficient Inference

Efficient Inference with Reduced Active Parameters

Efficient Long Context Attention Mechanism

Efficient Long Context Encoder

Efficient Model Training

Efficient Transformer Architecture

Enhanced Safety Alignment

Entity Knowledge Graph Extraction

Evaluation Framework

Expert Parallelism

Expert Selection Locality Analysis

Explicit Prompt Engineering

FP8 Training

Fill in the Middle Code Completion

Fine Grained Expert Segmentation

Flash Attention Integration

Flexible Image Processing

Flexible Vision Encoder Architecture

Gaussian Mixture Model Clustering

GeGLU Activation Improvement

Ghost Attention

Global Context Understanding

Graph RAG

Group Relative Policy Optimization

Grouped Query Attention

Hardware Aware Model Design

Hierarchical Summarization

Instruction Fine Tuning with Direct Preference Optimization

Interleaved Sequence Processing

Interleaving Local Global Attention

Iterative Reinforcement Learning

Iterative Teaching Committee

Joint Multimodal Pre Training

Knowledge Distillation for Small Language Models

Language Model Scaling Laws

Large Scale Reinforcement Learning on Base Model

LeetCode Competition Benchmark

Leiden Algorithm For Text

Logit Soft Capping

Long Context Adaptation

Long Context Retrieval Optimization

Low Rank Key Value Joint Compression

MM MT Bench Benchmark

Map Reduce Summarization

Memory Efficient Attention

Mirror Descent with Leave One Out Estimation

Mixed Precision Quantization

Mixture of Experts Architecture

Model Merging through Weight Averaging

Modularity Based Retrieval

Multi Dimensional Scaling Laws

Multi Head Latent Attention

Multi Image Instruction Following

Multi Level Abstraction Retrieval

Multi Level Community Indexing

Multi Level Load Balancing

Multi Step Learning Rate Scheduler

Multi Token Prediction

Multi Turn Instruction Tuning

Multilingual Performance Scaling

Multimodal Instruction Tuning

Multimodal Knowledge Distillation

Multimodal Safety Evaluation Framework

Natively Multimodal Transformer Architecture

Non Embedding FLOPs per Token

Open Foundation Language Models

Open Foundation and Fine Tuned Chat Models

Open and Efficient Foundation Language Models

Optimal Model Data Scaling Allocation

Optimal Model/Data Scaling Up Allocation

Pan & Scan Image Processing

Parameter Efficient Language Model Scaling

Performance Training Inference Tradeoff

Post Training Multimodal Alignment

Pre fill and Chunking

Project Level Code Understanding

Prompt Decontamination

Proximal Policy Optimization

Public Dataset Only Training

Quantization Aware Training

Query Focused Summarization

RMSNorm Pre Normalization

RMSNorm Stabilization

Reasoning Oriented Reinforcement Learning

Recursive Abstractive Processing

Recursive Summarization

Red Team Safety Testing

Reinforcement Learning with Cold Start

Reinforcement Learning with Human Feedback

Reinforcement Learning with Verifiable Rewards

Rejection Sampling Fine Tuning

Rejection Sampling and Supervised Fine Tuning

Repository Level Data Construction

Repository Level Deduplication

Responsible AI Evaluation

Responsible AI Principles

Responsible Multimodal Model Development

Responsible Open Model Development

Retrieval Augmented Generation

RoPE 2D Positional Encoding

RoPE Positional Embedding Extension

Rolling Buffer Cache

Rotary Positional Embeddings

Routing Network Token Selection

Runtime Swappable Model Adapters

Safety Alignment

Safety Context Distillation

Scaling Laws for Large Language Models

Scaling Open Source Language Models with Longtermism

Self Reflection Content Moderation

Semantic Similarity Clustering

Sequence Packing Optimization

Shared Expert Isolation

Sliding Window Attention

Sliding Window Attention Optimization

Soft Label Reward Modeling

Sparse Computation Mechanism

Sparse Mixture of Experts

Standardized Multimodal Evaluation

Supervised Fine Tuning

Supervised Finetuning

SwiGLU Activation Function

Synthetic Data Generation for Mathematics

System Message for Multi Turn Consistency

System Prompt Guardrails

Token Dropping Strategy

Token Efficient Knowledge Compression

Topological Sorting For Code Learning

Tree Organized Retrieval

Two Expert Token Processing

Ultimate Expert Specialization

Uncertainty Routed Multimodal Reasoning

Unpadding Transformer Architecture

Variable Image Resolution Processing

Vision Encoder Token Condensation

Vision Encoder with Break Tokens

Accuracy Recovery Adapters

Alternating Local Global Attention

Auxiliary Loss Free Load Balancing

Auxiliary Loss for Load Balance

Block Diagonal Attention Masking

Code Training Benefits Mathematical Reasoning

Collapsed Tree Retrieval

CommonCrawl Quality Filtering

Community Based Summarization

Community Detection For RAG

Computation Communication Overlap

Compute Optimal Scaling

Context Length Scaling

Contextual Flexibility Retrieval

Cross File Code Completion

Cross File Dependency Analysis

Cross Modal Reasoning Capabilities

Decoupled Rotary Position Embedding

DeepSeekMath Corpus

DeepSeekMoE

Dependency Aware Training

Dependency Aware Tree Traversal

Depth Over Width Scaling

Device Limited Routing

Direct Preference Optimization

Distillation of Reasoning Capability

Dynamic Expert Routing

Economical Training

Efficient Cross Node All to All Communication

Efficient Encoder Pretraining

Efficient Inference

Efficient Inference with Reduced Active Parameters

Efficient Long Context Attention Mechanism

Efficient Long Context Encoder

Efficient Model Training

Efficient Transformer Architecture

Enhanced Safety Alignment

Entity Knowledge Graph Extraction

Evaluation Framework

Expert Parallelism

Expert Selection Locality Analysis

Explicit Prompt Engineering

FP8 Training

Fill in the Middle Code Completion

Fine Grained Expert Segmentation

Flash Attention Integration

Flexible Image Processing

Flexible Vision Encoder Architecture

Gaussian Mixture Model Clustering

GeGLU Activation Improvement

Ghost Attention

Global Context Understanding

Graph RAG

Group Relative Policy Optimization

Grouped Query Attention

Hardware Aware Model Design

Hierarchical Summarization

Instruction Fine Tuning with Direct Preference Optimization

Interleaved Sequence Processing

Interleaving Local Global Attention

Iterative Reinforcement Learning

Iterative Teaching Committee

Joint Multimodal Pre Training

Knowledge Distillation for Small Language Models

Language Model Scaling Laws

Large Scale Reinforcement Learning on Base Model

LeetCode Competition Benchmark

Leiden Algorithm For Text

Logit Soft Capping

Long Context Adaptation

Long Context Retrieval Optimization

Low Rank Key Value Joint Compression

MM MT Bench Benchmark

Map Reduce Summarization

Memory Efficient Attention

Mirror Descent with Leave One Out Estimation

Mixed Precision Quantization

Mixture of Experts Architecture

Model Merging through Weight Averaging

Modularity Based Retrieval