UTF-8에서도 한글이 2바이트?

utf-8 바이트 수 규칙

UTF-8은 가변 길이 문자 인코딩 방식으로, 각 문자의 유니코드 코드 포인트(Unicode code point)에 따라 1~4바이트를 사용합니다. 영어는 1바이트, 유럽계 언어는 2바이트, 한글, 일본어, 중국어 등을 포함한 대부분의 언어가 3바이트입니다.

1. UTF-8 바이트 수 규칙 요약

바이트 수코드 포인트 범위 (16진수)설명
1바이트0000 0000 ~ 0000 007FASCII 문자 (영문자, 숫자, 특수문자 일부 등)
2바이트0000 0080 ~ 0000 07FF라틴계 문자, 악센트가 있는 유럽 문자 등
3바이트0000 0800 ~ 0000 FFFF대부분의 언어(한글, 일본어, 중국어 등)
4바이트0001 0000 ~ 0010 FFFF이모지, 고대 문자, 특수 기호 등

2. 언어별 문자 바이트 수 (UTF-8)

언어평균 바이트 수설명
영어1바이트ASCII 문자
독일어/프랑스어1~2바이트ñ, é, ü 같은 특수 라틴 문자는 2바이트
러시아어 (키릴 문자)2바이트유니코드 범위 U+0400~U+04FF
아랍어2바이트U+0600~U+06FF
히브리어2바이트U+0590~U+05FF
한글 (가/나/다 등 완성형)3바이트한글 완성형(U+AC00~U+D7A3)
일본어 (히라가나/가타카나/한자)3바이트모든 문자 3바이트
중국어 (간체/번체)3바이트일본어와 같은 한자 범위 사용
이모지4바이트😂, 🧡, 🐍 등

3. 예시

문자언어UTF-8 인코딩 (hex)바이트 수
A영어ox411바이트
é 프랑스어0xC3A92바이트
한국어oxED959C3바이트
중국어0xE4B8AD3바이트
😊이모지0xF09F988A4바이트

4. 정리

  • 영어만 사용하는 텍스트가 가장 효율적 (1바이트/문자).
  • 동아시아 문자(한중일)는 문자당 3바이트가 기본.
  • 이모지나 일부 특수 기호는 4바이트를 차지하므로 저장공간이나 전송량에 유의.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다