1-Hot 인코딩

범주형 데이터를 머신러닝 모델이 이해할 수 있는 숫자 형태로 바꾸는 방법 중 하나입니다.

핵심 아이디어

각 범주(category)를 고유한 위치에 1을 두고 나머지는 0으로 채우는 벡터로 변환하는 것입니다. 이렇게 하면 모델은 범주 간의 순서나 크기 관계 없이 데이터를 처리할 수 있습니다.

색상 데이터: [빨강, 초록, 파랑]을 1-hot 인코딩하면:

Tip: 범주가 매우 많을 때는 임베딩(Embedding)을 사용해 차원을 줄이는 것이 일반적입니다.

K-Hot 인코딩이라고도 부릅니다.

1-Hot Encoding과 데이터를 0과 1로 표현하는 점은 같지만, “동시에 몇 개의 항목을 선택할 수 있는가?”에 결정적인 차이가 있습니다.

개념: 전체 벡터 중 단 하나의 값만 1(Hot)이고, 나머지는 모두 0(Cold)
의미: “여러 선택지 중 오직 하나만 해당됨” (상호 배타적)
예시 (과일 - 상자에 과일이 하나만 들어있을 때):
- 사과: [1, 0, 0]
- 배: [0, 1, 0]
- 포도: [0, 0, 1]
사용처: 다중 클래스 분류 (Multi-class Classification)
- 예: 이 사진은 고양이인가, 강아지인가? (둘 다일 수는 없음)

개념: 전체 벡터 중 여러 개의 값이 동시에 1(Hot)이 될 수 있음
의미: “여러 선택지가 동시에 해당될 수 있음” (상호 배타적이지 않음)
예시 (영화 장르 - 한 영화가 여러 장르에 속할 때):
- 액션 & 코미디: [1, 1, 0]
- 코미디 & 드라마: [0, 1, 1]
- 액션만: [1, 0, 0]
사용처: 다중 레이블 분류 (Multi-label Classification)
- 예: 이 영화의 장르는 무엇인가? (액션이면서 동시에 SF일 수 있음)