UTF-1
UTF-1| MIME / IANA | ISO-10646-UTF-1 |
|---|---|
| 언어 | 국제 |
| 현재 상태 | 잘 알려지지 않은, 주로 역사적 관심사. |
| 분류 | 유니코드 변환 형식, 확장 ASCII, 변수 폭 인코딩 |
| 확장하다 | US-ASCII |
| 변환/인코딩 | ISO 10646(유니코드) |
| 성공자 | UTF-8 |
UTF-1은 ISO 10646/유니코드를 바이트 스트림으로 변환하는 방법이다.설계는 자체 동기화를 제공하지 않아 서브스트링 검색과 오류 복구가 어렵다.멀티바이트 인코딩에 ASCII 인쇄 문자를 재사용하여 일부 용도에 적합하지 않다(예: Unix 파일 이름에는 슬래시에 사용되는 바이트 값이 포함될 수 없음).또한 UTF-1은 2의 힘이 아닌 숫자로 분할과 곱셈을 사용하기 때문에 인코딩이나 디코딩이 느리다.이러한 문제들 때문에, 받아들여지지 않았고, UTF-8로 빠르게 대체되었다.
디자인
UTF-8과 마찬가지로 UTF-1은 ASCII와 역호환되는 가변 폭 인코딩이다.모든 유니코드 포인트는 단일 바이트 또는 2, 3 또는 5바이트의 시퀀스로 표현된다.ASCII는 단일 바이트 인코딩을 통해 지원되며, UTF-8과는 달리 비 ASC도 포함된다.II 코드 포인트U+0080을 통해U+009F.
UTF-1은 C0 및 C1 제어 코드나 멀티바이트 인코딩에서 공간 문자를 사용하지 않는다. 0-0x20 또는 0x7F-0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다.66개의 보호 문자를 가진 이 디자인은 ISO 2022 호환성을 시도했다.
UTF-1은 "modulo 190" 산술(256 - 66 = 190)을 사용한다.비교를 위해 UTF-8은 128개의 ASCII 문자를 모두 보호하며 이를 위해 1비트가 필요하고, 이를 자체 동기화하는 2비트가 필요하여 "modulo 64" 산술(8 - 2 = 66; 2 = 64)이 된다.BOCU-1은 MIME 호환성에 필요한 최소 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 0x20)만 보호하여 "modulo 243" 산술(256 - 13 = 243)을 생성한다.
| 코드 포인트 | UTF-8 | UTF-1 |
|---|---|---|
| U+007F | 7층 | 7층 |
| U+0080 | C2 80 | 80 |
| U+009F | C2 9층 | 9층 |
| U+00A0 | C2 A0 | A0 A0 |
| U+00BF | C2 BF | A0 BF |
| U+00C0 | C3 80 | A0 C0 |
| U+00FF | C3 BF | A0 FF |
| U+0100 | C4 80 | A1 21 |
| U+015D | C5 9D | A1 7E |
| U+015E | C5 9E | A1 A0 |
| U+01BD | C6 BD | A1 FF |
| U+01BE | C6 BE | A2 21 |
| U+07FF | DF BF | AA 72 |
| U+0800 | E0 A0 80 | AA 73 |
| U+0FFFF | E0 BF BF | B5 48 |
| U+1000 | E1 80 80 | B5 49 |
| U+4015 | E4 80 95 | F5 FF |
| U+4016 | E4 80 96 | F6 21 |
| U+D7FF | ED 9F BF | F7 2F C3 |
| U+E000 | EE 80 80 | F7 3A 79 |
| U+F8FF | EF A3 BF | F7 5C 3C |
| U+FDD0 | EF B7 90 | F7 62 BA |
| U+FDEF | EF B7 AF | F7 62 D9 |
| U+FEFF | EF BB BF | F7 64 4C |
| U+FFFD | EF BF BD | 서기 65년 F7 |
| U+FFE | EF BF BE | F7 65 AE |
| U+FFFF | EF BF BF | F7 65 AF |
| U+10000 | F0 90 80 80 | F7 65 B0 |
| U+38E2D | F0 B8 B8 AD | FB FF |
| U+38E2E | F0 B8 B8 AE | FC 21 21 21 |
| U+FFFFFF | F3 BF BF | FC 21 37 B2 7A |
| U+100000 | F4 80 80 80 | FC 21 37 B2 7B |
| U+10FFFF | F4 8F BF | FC 21 39 6E 6C |
| U+7FFFFFFFF | FD BF BF BF BF | FD BD 2B B9 40 |
현대 유니코드는 U+10FFF로 끝나지만 UTF-1과 UTF-8 모두 원래의 유니버설 문자 집합(UCS-4)의 31비트를 완전히 인코딩하도록 설계되었으며, 이 표의 마지막 항목은 이 원래의 최종 코드 포인트를 보여준다.
참고 항목
참조
- "The Unicode Standard: Appendix F FSS-UTF" (PDF) (PDF, 768 KiB). Version 1.1. Unicode, Inc.
- ISO/IEC JTC 1/SC2/WG2 (1993-01-21). "ISO IR 178: UCS Transformation Format One (UTF-1)" (PDF) (PDF, 256 KiB) (1 ed.). Registration number 178.
- Czyborra, Roman (1998-11-30). "Unicode Transformation Formats: UTF-8 & Co". Archived from the original on 2016-06-07. Retrieved 2016-06-07.
- F. Yergeau, F. (November 2003). "UTF-8, a transformation format of ISO 10646".
{{cite journal}}:Cite 저널은 필요로 한다.journal=(도움말)