HTML 유니코드(UTF-8) 참조


유니코드 컨소시엄

유니코드 컨소시엄은 유니코드 표준을 개발합니다. 그들의 목표는 기존의 문자 집합을 표준 UTF(Unicode Transformation Format)로 바꾸는 것입니다.

유니코드 표준은 성공했으며 HTML, XML, Java, JavaScript, 이메일, ASP, PHP 등으로 구현되었습니다. 유니코드 표준은 또한 많은 운영 체제와 모든 최신 브라우저에서 지원됩니다.

Unicode Consortium은 ISO, W3C 및 ECMA와 같은 주요 표준 개발 조직과 협력합니다.


유니코드 문자 집합

유니코드는 다른 문자 집합으로 구현할 수 있습니다. 가장 일반적으로 사용되는 인코딩은 UTF-8 및 UTF-16입니다.

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

팁: 유니코드의 처음 128개 문자(ASCII와 일대일 대응)는 ASCII와 동일한 바이너리 값을 가진 단일 옥텟을 사용하여 인코딩되어 유효한 ASCII 텍스트도 유효한 UTF-8 인코딩 유니코드로 만듭니다.

HTML 4는 UTF-8을 지원합니다. HTML 5는 UTF-8과 UTF-16을 모두 지원합니다!


HTML5 표준: 유니코드 UTF-8

ISO-8859의 문자 집합은 크기가 제한되어 있고 다국어 환경에서 호환되지 않기 때문에 유니코드 컨소시엄은 유니코드 표준을 개발했습니다.

유니코드 표준은 세계의 (거의) 모든 문자, 구두점 및 기호를 다룹니다.

유니코드를 사용하면 플랫폼 및 언어에 관계없이 텍스트를 처리, 저장 및 전송할 수 있습니다.

HTML-5의 기본 문자 인코딩은 UTF-8입니다.

HTML5 웹 페이지에서 UTF-8과 다른 문자 집합을 사용하는 경우 다음과 같이 <meta> 태그에 지정해야 합니다.

예시

<meta charset="ISO-8859-1">


유니코드와 UTF-8의 차이점

유니코드는 문자 집합 입니다. UTF-8은 인코딩 입니다.

유니코드는 고유한 십진수(코드 포인트)가 있는 문자 목록입니다. A = 65, B = 66, C = 67, ....

이 십진수 목록은 "hello" 문자열을 나타냅니다. 104 101 108 108 111

인코딩은 이러한 숫자를 이진수로 변환하여 컴퓨터에 저장하는 방법입니다.

UTF-8 인코딩은 "hello"를 다음과 같이 저장합니다(바이너리): 01101000 01100101 01101100 01101100 01101111

인코딩 은 숫자를 이진수로 변환합니다. 문자 집합 은 문자를 숫자로 변환합니다.


HTML5 UTF-8 문자 코드

다음은 HTML5에서 지원하는 일부 UTF-8 문자 코드 목록입니다.

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF