UTF-1

UTF-1
UTF-1
MIME / IANAISO-10646-UTF-1
언어국제
현재 상태잘 알려지지 않은, 주로 역사적 관심사.
분류유니코드 변환 형식, 확장 ASCII, 변수인코딩
확장하다US-ASCII
변환/인코딩ISO 10646(유니코드)
성공자UTF-8

UTF-1ISO 10646/유니코드바이트 스트림으로 변환하는 방법이다.설계는 자체 동기화를 제공하지 않아 서브스트링 검색과 오류 복구가 어렵다.멀티바이트 인코딩에 ASCII 인쇄 문자를 재사용하여 일부 용도에 적합하지 않다(예: Unix 파일 이름에는 슬래시에 사용되는 바이트 값이 포함될 수 없음).또한 UTF-1은 2의 힘이 아닌 숫자로 분할과 곱셈을 사용하기 때문에 인코딩이나 디코딩이 느리다.이러한 문제들 때문에, 받아들여지지 않았고, UTF-8로 빠르게 대체되었다.

디자인

UTF-8과 마찬가지로 UTF-1은 ASCII와 역호환되는 가변인코딩이다.모든 유니코드 포인트는 단일 바이트 또는 2, 3 또는 5바이트의 시퀀스로 표현된다.ASCII는 단일 바이트 인코딩을 통해 지원되며, UTF-8과는 달리 비 ASC도 포함된다.II 코드 포인트U+0080을 통해U+009F.

UTF-1은 C0 C1 제어 코드나 멀티바이트 인코딩에서 공간 문자를 사용하지 않는다. 0-0x20 또는 0x7F-0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다.66개의 보호 문자를 가진 이 디자인은 ISO 2022 호환성을 시도했다.

UTF-1은 "modulo 190" 산술(256 - 66 = 190)을 사용한다.비교를 위해 UTF-8은 128개의 ASCII 문자를 모두 보호하며 이를 위해 1비트가 필요하고, 이를 자체 동기화하는 2비트가 필요하여 "modulo 64" 산술(8 - 2 = 66; 2 = 64)이 된다.BOCU-1은 MIME 호환성에 필요한 최소 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 0x20)만 보호하여 "modulo 243" 산술(256 - 13 = 243)을 생성한다.

코드 포인트 UTF-8 UTF-1
U+007F 7층 7층
U+0080 C2 80 80
U+009F C2 9층 9층
U+00A0 C2 A0 A0 A0
U+00BF C2 BF A0 BF
U+00C0 C3 80 A0 C0
U+00FF C3 BF A0 FF
U+0100 C4 80 A1 21
U+015D C5 9D A1 7E
U+015E C5 9E A1 A0
U+01BD C6 BD A1 FF
U+01BE C6 BE A2 21
U+07FF DF BF AA 72
U+0800 E0 A0 80 AA 73
U+0FFFF E0 BF BF B5 48
U+1000 E1 80 80 B5 49
U+4015 E4 80 95 F5 FF
U+4016 E4 80 96 F6 21
U+D7FF ED 9F BF F7 2F C3
U+E000 EE 80 80 F7 3A 79
U+F8FF EF A3 BF F7 5C 3C
U+FDD0 EF B7 90 F7 62 BA
U+FDEF EF B7 AF F7 62 D9
U+FEFF EF BB BF F7 64 4C
U+FFFD EF BF BD 서기 65년 F7
U+FFE EF BF BE F7 65 AE
U+FFFF EF BF BF F7 65 AF
U+10000 F0 90 80 80 F7 65 B0
U+38E2D F0 B8 B8 AD FB FF
U+38E2E F0 B8 B8 AE FC 21 21 21
U+FFFFFF F3 BF BF FC 21 37 B2 7A
U+100000 F4 80 80 80 FC 21 37 B2 7B
U+10FFFF F4 8F BF FC 21 39 6E 6C
U+7FFFFFFFF FD BF BF BF BF FD BD 2B B9 40

현대 유니코드는 U+10FFF로 끝나지만 UTF-1과 UTF-8 모두 원래의 유니버설 문자 집합(UCS-4)의 31비트를 완전히 인코딩하도록 설계되었으며, 이 표의 마지막 항목은 이 원래의 최종 코드 포인트를 보여준다.

참고 항목

참조

  • "The Unicode Standard: Appendix F FSS-UTF" (PDF) (PDF, 768 KiB). Version 1.1. Unicode, Inc.
  • ISO/IEC JTC 1/SC2/WG2 (1993-01-21). "ISO IR 178: UCS Transformation Format One (UTF-1)" (PDF) (PDF, 256 KiB) (1 ed.). Registration number 178.
  • Czyborra, Roman (1998-11-30). "Unicode Transformation Formats: UTF-8 & Co". Archived from the original on 2016-06-07. Retrieved 2016-06-07.
  • F. Yergeau, F. (November 2003). "UTF-8, a transformation format of ISO 10646". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)