임베딩이 왜 “표현 학습(Representation Learning)”의 핵심인가

임베딩은 머신러닝/딥러닝에서 데이터의 숨겨진 의미를 벡터로 표현하는 기술이다.

표현 학습(Representation Learning)이란?

  • 데이터에서 의미 있는 특징을 자동으로 학습하는 과정
  • 딥러닝의 본질

임베딩은 그 표현 학습의 대표적인 구현체다.


임베딩이 중요한 이유 4가지

1) 높은 차원의 복잡한 데이터를 의미 있는 저차원 표현으로 변환

원본 데이터 임베딩 차원
10만 개 단어 300차원 벡터
100만 유저 64차원 벡터

2) 유사성·관계를 자동으로 학습

  • 비슷한 단어 = 비슷한 벡터
  • 비슷한 상품 = 비슷한 벡터
  • 비슷한 유저 = 비슷한 벡터

3) 원시 데이터의 구조적 의미를 압축해 저장

기술 학습하는 의미
Word2Vec 단어의 의미
CNN 이미지의 의미
Transformer 문맥의 의미
추천 시스템 유저의 취향 구조

모두 “의미 공간(semantic space)”을 만든다.

4) 다른 모델에서 재사용 가능 (Transferable)

임베딩은 재사용성과 일반화가 높다.

  • BERT 임베딩을 다운스트림 NLP 작업에 사용
  • 이미지 임베딩을 검색/분류/유사도 계산에 사용
  • 유저 임베딩을 여러 추천 모델에서 공유

최종 요약

임베딩이 표현 학습의 핵심인 이유:

데이터의 의미를 벡터로 자동 표현하여 유사성, 관계, 의도를 수치화하는 기술이기 때문