추론 (Inference)

별칭: inference · AI 추론 · 모델 실행 · 추론

학습된 AI 모델에 입력을 넣어 실제 답변·예측·생성 결과를 받는 과정.

추론은 이미 만들어진 모델을 사용하는 단계다. 사용자가 프롬프트를 입력하고 답을 받거나, 이미지를 넣고 설명을 받거나, 매출 데이터를 넣고 분석 결과를 받는 것이 추론이다. API 비용과 응답 속도는 대부분 이 추론 단계에서 발생한다.

정의

추론(Inference)은 학습이 끝난 AI 모델에 새 입력을 넣고 출력 결과를 얻는 과정이다. 모델이 문장을 생성하거나, 이미지를 분류하거나, 표 데이터를 바탕으로 예측값을 내는 실제 사용 단계다.

왜 중요한가

AI 서비스를 운영할 때 사용자가 체감하는 비용·속도·품질은 추론 단계에서 결정되는 경우가 많다. 강한 모델은 좋은 답을 줄 수 있지만 비용이 높고 느릴 수 있다. 반대로 가벼운 모델은 빠르고 싸지만 복잡한 판단에는 부족할 수 있다.

Semicolon에서의 의미

Semicolon에서는 추론을 “AI에게 일을 시키는 실제 호출”로 설명한다. 강의 자료를 요약하게 하거나, 봇이 사용자의 질문에 답하거나, 관리 화면에서 보고서를 생성하는 순간이 모두 추론이다. 운영 설계에서는 어떤 요청을 어떤 모델에 보낼지, 실패하면 어떻게 재시도할지, 사람이 어디서 검토할지를 함께 정한다.

예시

  • Claude에 슬라이드 노트를 요약시키기
  • ChatGPT에 보고서 초안을 만들게 하기
  • 이미지 생성 모델에 홍보 이미지를 만들게 하기
  • 분류 모델로 문의 유형을 자동 태깅하기

출처