Bits, Bytes & Neural Networks
A Data Scientist's Digital Playground
-
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 추론 능력 향상은 인공일반지능(AGI) 발전의 핵심 과제입니다. 기존 연구들은 주로 지도 학습에 의존하여 모델의 추론 능력을 향상시키려 했으나, 이는 대규모 고품질 데이터셋 구축이 필요하다는 한계가 있었습니다. 또한 OpenAI의 o1 시리즈가 보여준 Chain-of-Thought 추론의 성공에도 불구하고, 이를 재현하거나 개선하는 효과적인...
-
DeepSeek-V3 Technical Report
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 성능 향상과 효율적인 학습이 AI 연구의 핵심 과제로 대두되고 있습니다. 특히 모델의 크기가 커질수록 학습 비용과 추론 효율성이 중요한 문제로 부각되었습니다. 기존의 밀집 모델들은 파라미터 수가 증가할수록 학습과 추론에 막대한 컴퓨팅 자원이 필요했으며, 이는 확장성의 한계를 드러냈습니다. 이러한 배경에서...
-
ModernBERT - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 인코더 기반 트랜스포머 모델은 자연어 처리 분야에서 중요한 역할을 해왔지만, 최근 몇 년간 큰 발전 없이 정체되어 있었습니다. 특히 BERT 모델은 2019년 이후로 거의 개선되지 않았으며, 512 토큰으로 제한된 시퀀스 길이, 비효율적인 모델 설계, 제한된 어휘 크기 등의 한계를 가지고 있었습니다. 대규모...
-
Tulu 3: Pushing Frontiers in Open Language Model Post-Training
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 현대 언어 모델의 발전에도 불구하고, 공개된 후처리 학습 방법들은 비공개 상업용 모델들에 비해 성능이 뒤처져 있었습니다. 특히 인간 피드백 기반 강화학습(RLHF)과 같은 고급 학습 기법들이 주로 비공개로 개발되어 왔기 때문에, 공개 연구 커뮤니티는 이러한 기술적 격차를 좁히는 데 어려움을 겪어왔습니다. TÜLU 3...
-
Pixtral 12B
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 멀티모달 언어 모델의 발전에도 불구하고, 대부분의 오픈소스 모델들은 텍스트와 이미지를 동시에 처리할 때 자연어 처리 능력을 희생하거나 제한된 이미지 해상도와 종횡비만 처리할 수 있었습니다. 특히 기존 비전 인코더들은 일반적으로 224×224 또는 336×336 픽셀과 같은 고정된 해상도에서 학습되어, 다양한 크기와 형태의 이미지를 효과적으로...