유니코드의 중복 문자

유니코드는 일정량의 문자가 중복된다. 이것들은 표준적으로 동등한 단일 유니코드 코드 포인트의 쌍이다. 그 이유는 레거시 시스템과의 호환성 문제 때문이다.

두 글자가 표준적으로 동등하지 않는 한 좁은 의미에서는 "중복"이 아니다. 그러나, U+00B5 µMIC SIGN 대 U+03BC μ GRIS SLETER MU와 같은 경우에서 두 유니코드 문자가 실제로 동일한 그래프를 인코딩하는지에 대해서는 이견이 있을 여지가 있다.

이는 동일한 글리프 또는 거의 식별에 가까운 글리프(호모글리프)로 렌더링되는 유니코드 문자와 분명하게 구분되어야 하며, 이는 역사적으로 동일하기 때문이다(예: 그리스어 η 대). 라틴어 H) 또는 우연의 유사성(예: 그리스어 Ⅱ vs. 라틴어 P, 또는 그리스어 η vs. 키릴 문자 Ⅱ, 또는 다음의 호모글리프 섹스터플릿: "Sun" astronomical, "circled dot operator" ⊙, 고딕 문자 𐍈, 양방향 클릭의 IPA 기호 ʘ, Osage 문자 𐓫, Tifinagh 문자 ⵙ)

중복 문자 대 파생 문자

유니코드는 글립자가 아닌 개별적인 "수음(semantics)"이 아닌 글립자를 인코딩하는 것을 목표로 한다. 수학적 기호로 사용되는 그리스 문자와 같이 기술적 맥락에서 사용될 때 그러한 문자가 별도의 인코딩을 받아야 하는지는 사안이다. 따라서, 라틴 M과 별도로 "마이크로 사인" µs를 갖는 것은 아니지만, 라틴 M과 분리된 "메가 사인"을 갖는 것은 역사학을 위한 유니코드 컨소시엄의 실용적인 결정이었다.교정 이유(마이크로 기호를 포함한 라틴어-1과의 호환성). 기술적으로 µ와 μ는 컨소시엄이 이러한 기호를 구별되는 문자로 봤다는 점에서 중복문자는 아니다(M은 "메가"를, 라틴M은 하나의 동일한 문자로 간주했다).

단순히 서로 다른 "수치"를 갖는 것만으로는 그래프를 여러 문자로 분할할 수 있는 충분한 근거가 되지 않는다는 점에 유의하십시오. 따라서, 급성 사투리는 웨일스어나 스웨덴어로 단어 액센트를 나타낼 수 있고, 프랑스어로 모음의 질을 나타낼 수 있으며, 헝가리어, 아이슬란드어 또는 아일랜드어로 모음 길이를 나타낼 수 있다. 이 모든 언어는 같은 대본, 즉 라틴어 대본으로 쓰여지기 때문에 다양한 의미의 급성 사투리는 하나로 간주되며, 악센트 문자 é는 프랑스어와 헝가리어로 동일한 문자로 간주된다. 톤 언어의 로마자화를 위해 U+0341에는 별도의 "이악성 급성 톤 마크"가 있는데, 프랑스어 같은 언어에서는 예리한 억양이 소문자 i 위에 있는 점을 대체할 수 있는 반면, 베트남어 같은 언어에서는 예리한 톤 마크가 점 위에 추가된다는 두 개의 중요한 차이점이 있다. 독립된 것으로 간주되는 알파벳에 대한 분음 부호는 U+0384의 그리스 알파벳 및 U+055B의 아르메니아 알파벳에 대한 급성("토노스")과 같이 별도로 인코딩할 수 있다. 일부 키릴어 기반 알파벳(러시아어 등)도 급성 사투리를 사용하지만 별도로 인코딩된 "키릴어급"은 없으며 U+0301은 라틴어뿐만 아니라 키릴어에도 사용해야 한다(유니코드의 키릴어 문자 참조). 동일한 그래프가 많은 "유"를 가질 수 있다는 점은, 예를 들어, U자를 표기하는 여러 언어(영어 /juː/, /ʊ/, /ʌ/, 프랑스어 /y/, 독일어 /uː/, /u/ 등)에서 U를 기호로 사용하는 것은 말할 것도 없고, 음이 완전히 다른 문자 U를 사용한다는 점을 고려하면 더욱 명백하다.

호환성 문제

CJK 전체 너비 양식

전통적인 한자 인코딩에서 문자는 보통 1바이트(반폭으로 알려져 있음) 또는 2바이트(전폭으로 알려져 있음)를 가져갔다. 단 바이트를 사용한 문자는 일반적으로 2바이트를 사용한 문자의 절반 너비로 표시되었다. 라틴 알파벳과 같은 일부 문자는 절반 너비와 전체 너비 버전 모두에서 사용할 수 있었다. 반폭 버전은 일반적으로 더 많이 사용되었기 때문에 일반적으로 해당 문자의 표준 코드 포인트에 매핑된 버전이었다. 따라서 그 구별을 보존하기 위해 전체 너비 형태에 대해서는 별도의 구획이 필요했다.

문자 같은 기호

어떤 경우에는 특정한 제자(字字)가 본래의 기능과 별개의 특수한 상징적 또는 기술적 의미를 획득한 경우도 있다. 그리스어로 문맹이 없는 사람도 원의 원주를 지름으로 나눈 수학적 상수의 상징으로 널리 인정받는 그리스 문자 is이 눈에 띈다.

수학적 기호로 특별히 사용하기 위한 그리스어와 라틴 알파벳의 몇 가지 변형들은 수학 영숫자 기호 범위에 인코딩되어 있다. 이 범위는 일반적으로 글꼴 변형으로 간주되지만 글꼴 변형이 광범위하게 사용되기 때문에 별도로 인코딩되는 문자를 구분한다(예: L 대 "스크립트 L"). ℒ 대 "검은 글씨 L" 𝔏 vs. "Boldface Blackletter L" 𝕷)은 독특한 수학 기호로서. 수학적 또는 기술적 표기법에만 사용되도록 되어 있으며 비기술적 텍스트에는 사용하지 않는다.^[1]

그리스어

많은 그리스 문자들이 기술적 상징으로 사용된다. 모든 그리스 문자는 유니코드의 그리스어로 부호화되지만 많은 문자는 그들이 나타내는 기술적 기호의 이름으로 두 번째로 부호화된다. "마이크로 기호"(U+00B5, µ)는 분명히 ISO 8859-1에서 물려받았지만, 다른 것의 기원은 명확하지 않다.

별도 문자로 부호화된 다른 그리스 글리프 변종으로는 σ과 대비되는 루나테 시그마 ϲ, σ과 대비되는 최종 시그마 ς(문맥적 글리프 변종)이 있다.

Greek letters assigned separate "symbol" codepoints include the Letterlike Symbols ϐ, ϵ, ϑ, ϖ, ϱ, ϒ, and ϕ (contrasting with β, ε, θ, π, ρ, Υ, φ); the Ohm symbol Ω (contrasting with Ω); and the mathematical operators for the product ∏ and sum ∑ (contrasting with Π and Σ).

로마 숫자

유니코드는 U+21160에서 U+2183까지의 숫자 양식 범위의 일부로 로마 숫자로 특별히 지정된 여러 문자를 가지고 있다. 예를 들어, 로마 1988(MCMLXXXVIII)은 대안으로 ⅽⅿⅼⅼ as as as로 쓸 수 있다. 이 범위에는 대문자와 소문자 숫자뿐만 아니라 클럭 면에 주로 사용되는 12(XII의 경우 XII의 경우 XI)까지의 숫자에 대한 사전 결합 글리프가 포함된다.

미리 결합된 글리프는 개별 글리프 사용을 원하지 않는 개별 번호를 나타내는 데만 사용해야 하며, 복합 숫자를 대체하지 않아야 한다. 예를 들어 로마 숫자 11(ⅰ)을 의미하는 ⅹ과 ⅰ을 합칠 수 있으므로 U+216A( ()는 ⅹ과 표준적으로 동등하다. 이러한 문자를 복합 호환성 문자 또는 분해 가능한 호환성 문자라고도 한다. 이러한 문자는 다른 기존 인코딩과의 호환성을 제외하고 일반적으로 유니코드 표준에 포함되지 않았을 것이다(유니코드 호환성 문자 참조). 기존 인코딩에서 유니코드로의 간단한 변환을 수용하는 것이 목표였다. 이것은 여러 유니코드 문자가 다른 인코딩의 단일 문자에 매핑될 수 있기 때문에 반대 방향의 번역을 복잡하게 만든다. Without the compatibility concerns the only characters necessary would be: Ⅰ, Ⅴ, Ⅹ, Ⅼ, Ⅽ, Ⅾ, Ⅿ, ⅰ, ⅴ, ⅹ, ⅼ, ⅽ, ⅾ, ⅿ, ↀ, ↁ, ↂ, ↇ, ↈ, and Ↄ; all other Roman numerals can be composed from these.

참고 항목

참조

^ 유니코드 기술 보고서 초안 #25

[1] 유니코드 기술 보고서 초안 #25

[1]

Search