IT/AI
AI Embedding (데이터 특징 추출 방법) - One-hot Encoding
나의친구
2025. 3. 16. 13:17
원-핫 인코딩 상자 등장!
우리는 특별한 마법 상자, 바로 원-핫 인코딩 상자를 준비했어요! 이 상자에 "사과", "바나나", "포도"를 넣으면, 짜잔! 컴퓨터가 이해할 수 있는 숫자로 변신한답니다. ✨
어떻게 변신할까?
- 단어 목록 만들기: 먼저 우리가 말할 단어들을 모두 적어봐요. (예: 사과, 바나나, 포도)
- 순서 정하기: 단어들에게 순서를 매겨요. (예: 사과 - 1번, 바나나 - 2번, 포도 - 3번)
- 숫자 방 만들기: 각 단어마다 자기만의 방을 만들어줘요. (예: 사과 방, 바나나 방, 포도 방)
- 나머지는 0으로 채우기: 각 단어 방에 자기 자리에만 1을 넣고, 나머지 방에는 0을 넣어줘요.
예시:
단어숫자 변신
사과 | 1 0 0 |
바나나 | 0 1 0 |
포도 | 0 0 1 |
마법 상자의 단점도 있어요!
- 단어가 많아지면 방도 많아져요: 만약 단어가 100개라면 100개의 방이 필요하고, 1000개라면 1000개의 방이 필요해요.
- 단어 사이의 관계를 몰라요: "사과"와 "빨간색"은 비슷하지만, 원-핫 인코딩 상자는 이걸 몰라요.
용어의 설명
"원-핫 인코딩(One-Hot Encoding)"이라는 용어는 그 방식의 핵심적인 특징을 잘 나타내도록 만들어졌어요. 그 이유는 다음과 같습니다:
- "원(One)":
- 원-핫 인코딩에서는 벡터에서 딱 하나의 요소만 '1'이라는 값을 가집니다. 이는 마치 하나의 '뜨거운(hot)' 자리, 즉 활성화된 자리를 나타내는 것과 같습니다. 나머지 요소들은 모두 '0'의 값을 가지죠.
- "핫(Hot)":
- '핫(hot)'은 해당 요소가 활성화되어 있다는 것을 강조합니다. 즉, 특정 카테고리나 단어가 '선택되었다' 또는 '활성화되었다'라는 의미를 내포합니다.
- "인코딩(Encoding)":
- '인코딩'은 정보를 특정 형식으로 변환하는 과정을 의미합니다. 원-핫 인코딩은 범주형 데이터를 컴퓨터가 이해할 수 있는 숫자 형태, 즉 벡터로 변환하는 과정을 나타냅니다.
따라서 "원-핫 인코딩"은 하나의 요소만 활성화된 벡터로 데이터를 변환하는 방식을 직관적으로 설명하는 용어입니다.