사전 컴파일 문자

Precomposed character

사전 컴파일된 문자(대체 합성 문자 또는 분해 가능한 문자)는 하나 이상의 다른 문자의 시퀀스로도 정의될 수 있는 유니코드 엔터티다. 사전 컴파일된 문자는 일반적으로 é(급성 사투리가 있는 라틴 문자 e)와 같이 분음 부호가 있는 문자를 나타낼 수 있다. 기술적으로 é(U+00E9)는 base letter e(U+0065)의 등가 문자열로 분해하고 급성 억양(U+0301)을 조합할 수 있는 문자다. 마찬가지로, 은 그 구성 문자나 글자의 사전 합성이다.

사전 컴파일된 문자는 다양한 문자 집합에서 많은 특수 문자를 나타내기 위한 레거시 솔루션이다. 유니코드에서 그것들은 주로 불완전한 유니코드를 지원하는 컴퓨터 시스템을 돕기 위해 포함되며, 여기서 동등한 분해 문자들이 잘못 렌더링할 수 있다.

사전 컴파일된 문자와 디컴파일된 문자 비교

In the following example, there is a common Swedish surname Åström written in the two alternative methods, the first one with a precomposed Å (U+00C5) and ö (U+00F6), and the second one using a decomposed base letter A (U+0041) with a combining ring above (U+030A) and an o (U+006F) with a combining diaeresis (U+0308).

  1. å스트룀(U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström(U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

다른 색상을 제외하고 두 용액은 동일하며 동일하게 렌더링해야 한다. 그러나 실제로 일부 유니코드 구현은 여전히 디컴파일된 문자 때문에 어려움을 겪고 있다. 최악의 경우 모든 글꼴에 포함되지 않기 때문에 기본 문자 뒤에 인식되지 않는 문자를 조합하여 무시하거나 렌더링할 수 있다. 문제를 극복하기 위해 일부 애플리케이션은 단순히 분해된 문자를 사전 컴파일된 동등한 문자로 대체하려고 시도할 수 있다.

그러나 글꼴이 불완전한 경우 사전 컴파일된 문자도 문제가 될 수 있다. 특히 다음과 같은 예에서와 같이 이국적인 경우("개"를 위해 재구성된 프로토-인도-유럽어 단어 표시)

  1. ḱṷn (U+1E31 U+1E77 U+1E53 U+006E)
  2. kquatṷṓ́́n (U+006B U+0301 U+0075 U+0032D U+006F U+0304 U+0301 U+0301 U+006E)

일부 상황에서는 미리 컴파일된 녹색 k, uo와 분음 부호가 인식되지 않는 문자로 렌더링할 수 있으며, 또는 이들의 인쇄 모양은 분음 부호가 없는 최종 문자 n과 매우 다를 수 있다. 두 번째 줄에서는 조합된 분음 문자를 인식할 수 없더라도 최소한 기본 문자는 올바르게 렌더링해야 한다.

OpenTypeccmp "특징 태그"를 가지고 있어 결합 문자와 관련된 구성 또는 분해인 글리프를 정의한다.

한자

이론적으로, 한 통일에 의해 부호화된 대부분의 한자한문 서술 언어가 있는 구성적 획과 문자 서술로 축소될 수 있기 때문에 사전 편찬된 문자로 취급될 수 있다. 그러한 접근법은 문자 집합의 글자 수를 수만에서 단 몇 백으로 줄일 수 있다. 반면에, 그렇게 고도로 분해된 문자 집합은 소프트웨어 검색과 편집에 어려움을 야기할 것이고 문서당 더 많은 바이트의 인코딩을 필요로 할 것이다.

참고 항목

원천

외부 링크