사전학습 (Pretraining)
별칭: pretraining · pre-training · 사전학습 · 사전 학습
모델이 특정 작업을 배우기 전, 인터넷·책 등 대규모 일반 데이터로 먼저 학습하는 단계.
LLM 의 기초 능력(문법·상식·코드·다국어)이 만들어지는 단계다. 이후 도메인 데이터로 다듬는 파인튜닝과 구분된다. 사전학습은 비용이 막대해 OpenAI·Anthropic·Google 같은 거대 기업 위주로 수행된다.
별칭: pretraining · pre-training · 사전학습 · 사전 학습
모델이 특정 작업을 배우기 전, 인터넷·책 등 대규모 일반 데이터로 먼저 학습하는 단계.
LLM 의 기초 능력(문법·상식·코드·다국어)이 만들어지는 단계다. 이후 도메인 데이터로 다듬는 파인튜닝과 구분된다. 사전학습은 비용이 막대해 OpenAI·Anthropic·Google 같은 거대 기업 위주로 수행된다.