HTML 유니코드(UTF-8) 참조
유니코드 컨소시엄
유니코드 컨소시엄은 유니코드 표준을 개발합니다. 그들의 목표는 기존의 문자 집합을 표준 UTF(Unicode Transformation Format)로 바꾸는 것입니다.
유니코드 표준은 성공했으며 HTML, XML, Java, JavaScript, 이메일, ASP, PHP 등으로 구현되었습니다. 유니코드 표준은 또한 많은 운영 체제와 모든 최신 브라우저에서 지원됩니다.
Unicode Consortium은 ISO, W3C 및 ECMA와 같은 주요 표준 개발 조직과 협력합니다.
유니코드 문자 집합
유니코드는 다른 문자 집합으로 구현할 수 있습니다. 가장 일반적으로 사용되는 인코딩은 UTF-8 및 UTF-16입니다.
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
팁: 유니코드의 처음 128개 문자(ASCII와 일대일 대응)는 ASCII와 동일한 바이너리 값을 가진 단일 옥텟을 사용하여 인코딩되어 유효한 ASCII 텍스트도 유효한 UTF-8 인코딩 유니코드로 만듭니다.
HTML 4는 UTF-8을 지원합니다. HTML 5는 UTF-8과 UTF-16을 모두 지원합니다!
HTML5 표준: 유니코드 UTF-8
ISO-8859의 문자 집합은 크기가 제한되어 있고 다국어 환경에서 호환되지 않기 때문에 유니코드 컨소시엄은 유니코드 표준을 개발했습니다.
유니코드 표준은 세계의 (거의) 모든 문자, 구두점 및 기호를 다룹니다.
유니코드를 사용하면 플랫폼 및 언어에 관계없이 텍스트를 처리, 저장 및 전송할 수 있습니다.
HTML-5의 기본 문자 인코딩은 UTF-8입니다.
HTML5 웹 페이지에서 UTF-8과 다른 문자 집합을 사용하는 경우 다음과 같이 <meta> 태그에 지정해야 합니다.
예시
<meta charset="ISO-8859-1">
유니코드와 UTF-8의 차이점
유니코드는 문자 집합 입니다. UTF-8은 인코딩 입니다.
유니코드는 고유한 십진수(코드 포인트)가 있는 문자 목록입니다. A = 65, B = 66, C = 67, ....
이 십진수 목록은 "hello" 문자열을 나타냅니다. 104 101 108 108 111
인코딩은 이러한 숫자를 이진수로 변환하여 컴퓨터에 저장하는 방법입니다.
UTF-8 인코딩은 "hello"를 다음과 같이 저장합니다(바이너리): 01101000 01100101 01101100 01101100 01101111
인코딩 은 숫자를 이진수로 변환합니다. 문자 집합 은 문자를 숫자로 변환합니다.
HTML5 UTF-8 문자 코드
다음은 HTML5에서 지원하는 일부 UTF-8 문자 코드 목록입니다.
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |