머신러닝에서 임베딩

머신러닝에서 임베딩(embedding) 은 고차원·희소(sparse)한 데이터를 의미를 유지한 채 저차원·밀집(dense) 벡터로 변환한 표현 방식이다.

원래 데이터는 머신러닝 모델이 바로 이해하기 어려우니, 숫자 벡터로 바꿔서 의미를 담도록 표현한 것.

왜 임베딩을 쓰는가?

머신러닝 모델 대부분은 수치 벡터를 입력으로 받는다. 문자열, 카테고리, 단어, 이미지 패치 등은 바로 학습할 수 없다.

임베딩을 사용하면:

예: 직업, 나이대, 지역, 상품 ID 등

One-hot encoding은 차원이 매우 커지며 의미를 담지 못한다. 그래서 Embedding Layer를 사용한다 (특히 추천 시스템에서).

User ID: 1234 → [0.12, -0.44, 1.02, …]
Item ID: 9981 → [0.88, 0.03, -0.55, …]

비슷한 유저/상품은 비슷한 벡터가 생성된다.

단어/문장을 벡터로 표현하는 기술:

king  → [0.5, 0.1, 0.7, …]
queen → [0.48, 0.12, 0.68, …]

king - man + woman ≈ queen

유저, 아이템을 임베딩 공간에 위치시키면 유사도(코사인 유사도 등)를 통해 추천 가능.

CNN, Vision Transformer 등에서 이미지 → 벡터 변환

예: 이미지 검색, 얼굴 인식 → 비슷한 이미지끼리 가까운 벡터 위치

embedding = Embedding(input_dim=10000, output_dim=64)

word_id = 123
vector = embedding(word_id)
# → shape (64,) 벡터

단어 ID 123 → 64차원 의미 벡터로 변환됨.

임베딩 = 의미를 보존한 채 데이터를 저차원 벡터로 표현하는 기술. 머신러닝 모델이 ‘이해할 수 있는 형태’로 만드는 핵심 단계.