임베딩이 왜 “표현 학습(Representation Learning)”의 핵심인가
임베딩은 머신러닝/딥러닝에서 데이터의 숨겨진 의미를 벡터로 표현하는 기술이다.
표현 학습(Representation Learning)이란?
- 데이터에서 의미 있는 특징을 자동으로 학습하는 과정
- 딥러닝의 본질
임베딩은 그 표현 학습의 대표적인 구현체다.
임베딩이 중요한 이유 4가지
1) 높은 차원의 복잡한 데이터를 의미 있는 저차원 표현으로 변환
| 원본 데이터 | 임베딩 차원 |
|---|---|
| 10만 개 단어 | 300차원 벡터 |
| 100만 유저 | 64차원 벡터 |
2) 유사성·관계를 자동으로 학습
- 비슷한 단어 = 비슷한 벡터
- 비슷한 상품 = 비슷한 벡터
- 비슷한 유저 = 비슷한 벡터
3) 원시 데이터의 구조적 의미를 압축해 저장
| 기술 | 학습하는 의미 |
|---|---|
| Word2Vec | 단어의 의미 |
| CNN | 이미지의 의미 |
| Transformer | 문맥의 의미 |
| 추천 시스템 | 유저의 취향 구조 |
모두 “의미 공간(semantic space)”을 만든다.
4) 다른 모델에서 재사용 가능 (Transferable)
임베딩은 재사용성과 일반화가 높다.
- BERT 임베딩을 다운스트림 NLP 작업에 사용
- 이미지 임베딩을 검색/분류/유사도 계산에 사용
- 유저 임베딩을 여러 추천 모델에서 공유
최종 요약
임베딩이 표현 학습의 핵심인 이유:
데이터의 의미를 벡터로 자동 표현하여 유사성, 관계, 의도를 수치화하는 기술이기 때문