사전학습 (Pretraining)

별칭: pretraining · pre-training · 사전학습 · 사전 학습

모델이 특정 작업을 배우기 전, 인터넷·책 등 대규모 일반 데이터로 먼저 학습하는 단계.

LLM 의 기초 능력(문법·상식·코드·다국어)이 만들어지는 단계다. 이후 도메인 데이터로 다듬는 파인튜닝과 구분된다. 사전학습은 비용이 막대해 OpenAI·Anthropic·Google 같은 거대 기업 위주로 수행된다.

사전학습(Pretraining)은 모델이 특정 작업을 배우기 전에 인터넷·책·코드 같은 대규모 일반 텍스트로 먼저 학습하는 단계다. LLM 이 가진 문법·상식·코드 작성 같은 기초 능력은 이 단계에서 만들어진다.

이후 더 작은 도메인/지시 데이터로 다듬는 파인튜닝 과 구분된다. 사전학습은 수만 GPU × 수개월 단위의 비용이 들어 OpenAI·Anthropic·Google 같은 거대 기업이 주로 수행하고, 대다수 사용자/기업은 이미 사전학습된 모델 위에서 파인튜닝/RAG/프롬프트로 활용한다.