평면(유니코드)

Plane (Unicode)

유니코드 표준에서 평면은 65,536 (216)의 코드 포인트들의 연속적인 그룹입니다.숫자 0~16으로 식별되는 17개의 평면이 있으며, 이 평면은 6개의 위치 16진수 형식(U+hhhhhhhhh)에서 처음 두 위치 중 가능한16 값 00~10에 해당합니다.평면 0은 가장 일반적으로 사용되는 문자를 포함하는 BMP(기본 다국어 평면)입니다.상위 평면 1부터 16까지는 "보조 평면"이라고 불립니다.[1]유니코드의 마지막 코드 포인트는 평면 16의 마지막 코드 포인트인 U+10FFFF입니다.유니코드 버전 15.1에서는 평면 중 5개가 코드 포인트(문자)를 할당했으며 7개가 이름이 붙여졌습니다.

17개의 플레인의 한계는 UTF-16으로 인한 것으로, 2개의20 코드 포인트(16개의 플레인)를 워드 쌍으로 인코딩하고 BMP를 단일 워드로 인코딩할 수 있습니다.[2]UTF-8은 2 (231,147,483,648) 코드 포인트 (32,768 평면)의 훨씬 더 큰 제한으로 설계되었으며, 현재 4 바이트의 제한 하에서도 여전히 221 (2,097,152) 코드 포인트 (32 평면)를 인코딩할 수 있습니다.[3]

17대의 비행기는 1,114,112개의 코드 포인트를 수용할 수 있습니다.이 중 2,048명은 대리모(UTF-16에서 쌍을 만드는 데 사용됨)이고, 66명은 비문자이며, 137,468명은 민간용으로 예약되어 있으며, 974,530명은 공공용으로 남겨져 있습니다.

평면은 평면과 달리 고정된 크기가 없는 유니코드 블록으로 더 세분됩니다.유니코드 15.1에 정의된 328개의 블록은 가능한 코드 포인트 공간의 26%를 커버하며, 최소 16개의 코드 포인트(16개의 블록)에서 최대 65,536개의 코드 포인트(Supplementary Private Use Area-A 및 -B)까지 크기가 다양합니다(Supplementary Private Use Area-A 및 -B는 평면 15 및 16 전체를 구성합니다).미래의 사용을 위해, 다양한 문자들이 대부분의 알려진 현재 및 고대 문자 시스템에 대해 잠정적으로 매핑되었습니다.[4]

개요

할당된 문자

비행기 할당된 코드 포인트[note 1] 버전 15.0 할당된 문자
0 BMP 65,520 55,639
SMP 1개 26,160 23,276
2 SIP 61,536 61,495
3 TIP 9,136 9,131
14 SSP 368 337
15 SPUA-A 65,536 0 (정의상)
16 SPUA-B 65,536 0 (정의상)
합계 293,792 149,878
  1. ^ 유니코드 블록에 할당된 코드 포인트입니다.

기본 다국어 평면

기본 다국어 평면 지도입니다.번호가 매겨진 각 상자는 256개의 코드 포인트를 나타냅니다.

첫 번째 평면인 0 평면인 BMP(Basic Multilinguation Plane)는 거의 모든 현대 언어의 문자와 많은 수의 기호를 포함합니다.BMP의 주요 목표는 쓰기를 위한 문자뿐만 아니라 이전 문자 집합의 통합을 지원하는 것입니다.BMP에서 할당된 코드 포인트의 대부분은 중국어, 일본어 및 한국어(CJK) 문자를 인코딩하는 데 사용됩니다.

높은 대리자(U+D800–U+DBFF) 및 낮은 대리자(U+DC00–U+DFFF) 코드는 UTF-16에서 높은 대리자와 낮은 대리자의 16비트 코드 을 사용하여 BMP가 아닌 문자를 인코딩하는 데 사용됩니다.단일 대리 코드 포인트에는 문자가 할당되지 않습니다.

이 평면에 있는 65,536개의 코드 포인트 중 65,520개가 유니코드 블록에 할당되었으며, 단 하나의 할당되지 않은 범위(2FE0..2FEF).

유니코드 15.1 현재 BMP는 다음 164개의 블록으로 구성되어 있습니다.

부가 다국어 평면

보조 다국어 평면도입니다.번호가 매겨진 각 상자는 256개의 코드 포인트를 나타냅니다.

평면 1, SMP(Supplementary Multilinguation Plane)는 이력 스크립트(CJK ideographic 제외)와 특정 필드 내에서 사용되는 기호 및 표기를 포함합니다.스크립트에는 선형 B, 이집트 상형문자, 설형문자 등이 있습니다.또한 샤비안과 데세레트와 같은 영어 개혁 철자법과 오세이지, 와랑씨티, 아들람, 완초, 토토와 같은 현대 대본도 포함되어 있습니다.기호와 표기법에는 역사적이고 현대적인 음악 표기법, 수학적 알파벳 숫자법, 속기법, 이모지 및 기타 그림 세트, 카드, 마작도미노 게임 기호가 포함됩니다.

유니코드 15.1 현재 SMP는 다음과 같은 151개의 블록으로 구성되어 있습니다.

부가적 이념면

보조 지형면의 지도입니다.번호가 매겨진 각 상자는 256개의 코드 포인트를 나타냅니다.

평면 2(Supplementary Ideographic Plane, SIP)는 이전의 문자 인코딩 표준에 포함되지 않았던 CJK 아이데그래프(CJK Unified Ideographics)에 사용됩니다.

유니코드 15.1을 기준으로 SIP는 다음과 같은 7개의 블록으로 구성되어 있습니다.

삼차이상학 평면

3차측 평면도입니다.번호가 매겨진 각 상자는 256개의 코드 포인트를 나타냅니다.

평면 3은 TIP(Trial Ideographic Plane)입니다.2020년 3월에 출시된 유니코드 13.0에서 CJK Unified Ideographes Extension G가 TIP에 추가되었습니다.[5]또한 Oracle Bone 스크립트Small Seal 스크립트를 위해 잠정적으로 할당됩니다.[6]

유니코드 15.1을 기준으로 TIP는 다음과 같은 두 개의 블록으로 구성됩니다.

할당되지 않은 평면

평면 4 ~ 13 (평면)4 ~ D(16진수):아직 비행기 4~13에 할당되거나 할당 제안된 문자가 없습니다.

보조특수목적면

보조 특수 목적 비행기의 지도.번호가 매겨진 각 상자는 256개의 코드 포인트를 나타냅니다.

14면(16진수로 E)은 SSP(Supplementary Special-Purpose Plane)로 지정됩니다.유니코드 15.1 기준으로 다음과 같은 두 개의 블록으로 구성됩니다.

개인 사용 영역 평면

평면 1516(16진수로 평면 F 및 10)에는 각각 "개인 사용 영역"이 포함됩니다.여기에는 보조 개인 사용 영역-A(PUA-A) 및 -B(PUA-B)라는 이름의 블록이 포함됩니다.개인 사용 영역은 ISO 및 유니코드(개인 문자 인코딩) 외부에서 사용할 수 있습니다.

참고문헌

  1. ^ "Glossary". www.unicode.org. Retrieved 2021-09-27.
  2. ^ 유니코드 표준 https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf 의 표 3.5 "UTF-16 비트 배포" 참조
  3. ^ 유니코드 표준 https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf 의 표 3.6 "UTF-8 비트 분포" 참조
  4. ^ "Roadmaps to Unicode". www.unicode.org. Retrieved 2021-09-27.
  5. ^ "Announcing The Unicode Standard, Version 13.0".
  6. ^ "Proposed New Characters: The Pipeline". www.unicode.org.