타밀 모든 문자 인코딩

Tamil All Character Encoding

타밀 모든 문자 인코딩(TACE16)은 유니코드개인 사용 영역에서 타밀 문자인코딩하기 위한 체계로, 유니코드의 기존 타밀 구현에서 사용되는 수정된 ISCII 모델과 다른 강의 계획 기반 문자 모델을 구현합니다.[1][2]

키보드 드라이버 및 글꼴

이 인코딩 방식의 키보드 드라이버는 타밀 가상 아카데미 웹사이트에서 무료로 이용할 수 있습니다.[3][4] 타밀 나두 정부가 승인한 타밀 99 및 타밀 타자기 키보드 레이아웃을 사용하고 입력 키 입력 키 입력을 TACE16 체계의 해당 문자에 매핑합니다.[2] TACE16을 사용하여 작성된 파일을 읽기 위해서는 해당 유니코드 타밀 글꼴도 동일한 웹 사이트에서 사용할 수 있습니다.[3][4] 이러한 글꼴은 TACE16 형식의 문자에 대한 글리프뿐만 아니라 ASCII 및 타밀 문자에 대한 유니코드 블록도 매핑하므로 타밀 유니코드 블록을 사용하여 생성된 기존 파일을 읽기 위한 하위 호환성을 제공할 수 있습니다.

문자 집합

이 인코딩 방식의 모든 문자는 유니코드범용 코드 문자 집합기본 다국어 평면개인 사용 영역에 있습니다.

타밀 모든 문자 인코딩 (TACE16) 문자 세트[5]
모음→ A ā I Ī U ū E Ē 아이 O 아우 (기타)
자음
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
(기호) U+E10_ ராஜ
(숫자) U+E18_
(절편) U+E1A_ 𑿌 𑿐 𑿑 𑿓 𑿅 𑿉 𑿎 𑿄 𑿈 𑿋 𑿍 𑿏 𑿀 𑿁 𑿂 𑿆
U+E1F_ ி
U+E20_
K U+E21_ க் கா கி கீ கு கூ கெ கே கை கொ கோ கௌ
U+E22_ ங் ஙா ஙி ஙீ ஙு ஙூ ஙெ ஙே ஙை ஙொ ஙோ ஙௌ
C U+E23_ ச் சா சி சீ சு சூ செ சே சை சொ சோ சௌ
ñ U+E24_ ஞ் ஞா ஞி ஞீ ஞு ஞூ ஞெ ஞே ஞை ஞொ ஞோ ஞௌ
U+E25_ ட் டா டி டீ டு டூ டெ டே டை டொ டோ டௌ
U+E26_ ண் ணா ணி ணீ ணு ணூ ணெ ணே ணை ணொ ணோ ணௌ
T U+E27_ த் தா தி தீ து தூ தெ தே தை தொ தோ தௌ
N U+E28_ ந் நா நி நீ நு நூ நெ நே நை நொ நோ நௌ
P U+E29_ ப் பா பி பீ பு பூ பெ பே பை பொ போ பௌ
M U+E2A_ ம் மா மி மீ மு மூ மெ மே மை மொ மோ மௌ
Y U+E2B_ ய் யா யி யீ யு யூ யெ யே யை யொ யோ யௌ
R U+E2C_ ர் ரா ரி ரீ ரு ரூ ரெ ரே ரை ரொ ரோ ரௌ
L U+E2D_ ல் லா லி லீ லு லூ லெ லே லை லொ லோ லௌ
V U+E2E_ வ் வா வி வீ வு வூ வெ வே வை வொ வோ வௌ
U+E2F_ ழ் ழா ழி ழீ ழு ழூ ழெ ழே ழை ழொ ழோ ழௌ
U+E30_ ள் ளா ளி ளீ ளு ளூ ளெ ளே ளை ளொ ளோ ளௌ
U+E31_ ற் றா றி றீ று றூ றெ றே றை றொ றோ றௌ
U+E32_ ன் னா னி னீ னு னூ னெ னே னை னொ னோ னௌ
그란타 문자
J U+E33_ ஜ் ஜா ஜி ஜீ ஜு ஜூ ஜெ ஜே ஜை ஜொ ஜோ ஜௌ
U+E34_ ஶ் ஶா ஶி ஶீ ஶு ஶூ ஶெ ஶே ஶை ஶொ ஶோ ஶௌ
U+E35_ ஷ் ஷா ஷி ஷீ ஷு ஷூ ஷெ ஷே ஷை ஷொ ஷோ ஷௌ
S U+E36_ ஸ் ஸா ஸி ஸீ ஸு ஸூ ஸெ ஸே ஸை ஸொ ஸோ ஸௌ
H U+E37_ ஹ் ஹா ஹி ஹீ ஹு ஹூ ஹெ ஹே ஹை ஹொ ஹோ ஹௌ
케이 U+E38_ க்ஷ் க்ஷ க்ஷா க்ஷி க்ஷீ க்ஷு க்ஷூ க்ஷெ க்ஷே க்ஷை க்ஷொ க்ஷோ க்ஷௌ ஶ்ரீ
참고:
새로 추가되었습니다. 유니코드 버전 6.3에는 없습니다.
유니코드 버전 12(2019)에 추가된 타밀 보충 블록의 문자에 해당합니다.
연구용으로 할당됨(NLP)

TACE16과 타밀어 유니코드의 비교

타밀어 표준 유니코드 문자 모델에 대한 비판

데바나가리, 타밀어, 칸나다어, 신할라어 이모지에 대한 유니코드의 인코딩 모델은 보이지 않는 제로 너비의 조인 문자제로 너비의 비조인 문자를 사용해야 합니다.

타밀어에 대한 기존 유니코드 문자 모델은 대부분의 인디코드 유니코드[a]마찬가지로 ISCII에서 파생된 아부기다 기반 모델입니다. 몇 가지 이유로 비판을 받았습니다.[1]

유니코드는 247개의 자소 클러스터 중 31개의 타밀 기본 문자만을 단일 코드 포인트로 나타냅니다. 여기에는 독립형 모음과 23개의 기본 자음 글리프가 포함됩니다. (그럼에도 불구하고 비라마를 포함하지 않기 때문에 자체적으로 사용할 때 자음과 모음이 모두 있는 음절을 나타냅니다.) 다른 것들은 코드 포인트의 시퀀스로 표시되므로 올바르게 렌더링하려면 고급 타이포그래피 기능(예: Apple Advanced Typography, Graphite 또는 OpenType 고급 타이포그래피)에 대한 소프트웨어 지원이 필요합니다. 또한 원하는 그래픽 클러스터가 모호한 곳에서는 보이지 않는 0-폭 조인0-폭 비조인 문자를 사용해야 합니다. 이 복잡성으로 인해 보안 취약성과 모호한 조합이 발생할 수 있으며 코드 포인트의 잘못된 조합을 금지하기 위해 예외 테이블을 사용해야 하며 동일성을 위해 두 문자열을 비교하기 위해 문자열 정규화를 사용해야 할 수 있습니다.

또한 자음과 모음이 모두 포함된 음절은 타밀어 텍스트의 64~70%를 차지하기 때문에 자음과 모음 부분을 별도의 코드 포인트로 인코딩하는 아부기다 기반 모델은 강의 계획서 기반 모델에 비해 주어진 텍스트를 포함하는 데 필요한 시간의 측면에서 비효율적입니다.

또한 ISCII는 주로 데바나가리의 인코딩이며, 다른 브라만 문자(타밀어 포함)의 ISCII 인코딩은 데바나가리 ISCII의 해당 문자의 코드 포인트 위에 문자를 인코딩합니다. 비록 유니코드가 브라만 문자를 서로 따로 인코딩하지만, 타밀 블록은 ISCII 레이아웃을 반영합니다(데바나가리 스타일의 문자 순서와 타밀어에 해당하지 않는 데바나가리 문자에 해당하는 위치에 예약된 공간이 있음). 결과적으로 문자는 자연스러운 순서 순서가 아닙니다. 그리고 코드 포인트(영어 텍스트의 "ASCIBETIC" 정렬과 유사)로 정렬된 문자열은 예상 정렬 순서를 생성하지 않습니다. 그것들을 자연스러운 순서로 배열하기 위한 복잡한 대조 알고리즘이 필요합니다.

TACE16 비교

다음 데이터는 현재 유니코드 타밀어와 비교를 제공합니다. TACE16 전자 거버넌스 및 브라우징:[1]

  1. TACE16은 유니코드 타밀어에 비해 데이터 저장에 있어 약 5.46~11.94% 효율적입니다.
  2. TACE16은 인덱스 데이터를 정렬하는 데 있어 유니코드 타밀어보다 약 18.69~22.99% 효율적입니다.
  3. TACE16은 전체 데이터가 타밀어일 때 유니코드 타밀어보다 약 25.39% 효율적입니다. TACE16의 코드 공간 값을 사용하는 동안 기본 대조 순서는 (이진) 뒤에 따랐지만 타밀어 사전 순서와 다릅니다.
  4. TACE16은 유니코드 타밀어보다 정렬 속도가 약 0.31~16.96% 빠릅니다.
  5. TACE16 데이터의 인덱스 작성 속도는 유니코드보다 36.7% 빠릅니다.
  6. 색인화된 필드에서 전체 키 검색의 경우, TACE16은 유니코드 타밀어보다 최대 24.07%의 성능을 발휘합니다. 색인되지 않은 필드의 경우, TACE16은 유니코드 타밀어보다 최대 20.9%의 성능을 발휘합니다.
  7. 정적 타밀 데이터 렌더링은 TACE16과 함께 작동합니다.

TACE16은 처리 시간과 처리 공간에서 성능 향상을 제공합니다. 일반적인 타밀어 텍스트를 모두 포함하며, 순차적이며, 한 문자에만 해당하는 점이 있어 명확합니다.[1] TACE16 시스템은 유니코드 타밀어보다 적은 명령 주기를 가지며, 또한 유니코드 타밀어의 추가 프레임워크 개발이 필요한 타밀어 문법을 기반으로 프로그래밍을 허용합니다.

유니코드 컨소시엄의 반응

유니코드 컨소시엄은 일부 비판에 대응하는 타밀어 스크립트에 대한 FAQ 전용 페이지를 게시합니다. ISCII 모델을 방어하기 위해 컨소시엄은 전문 언어학자, 타이포그래퍼 및 프로그래머가 개발에 참여했다고 언급하지만 ISCII가 단일 바이트 확장 ASCII로 제한되어 타협이 이루어졌다는 것을 인정합니다. 컨소시엄은 유니코드 타밀어가 이제 모든 주요 운영 체제와 웹 브라우저에서 구현되고 있다고 지적하며, 검색 엔진과 같은 도구가 반드시 유니코드 개인용 코드 포인트의 시퀀스를 타밀어 텍스트로 식별하거나 해석할 수 없기 때문에 온라인과 같은 오픈 인터체인지 컨텍스트에서 사용되어야 한다고 주장합니다. 그러나 컨소시엄은 내부적으로 TACE16을 포함한 사적 사용 영역 제도를 유용한 특정 프로세스에 사용하는 것에 반대하지 않습니다. 특히 마크업 방식과 대체 인코딩 방식이 모두 자연어 처리와 같은 전문적인 목적으로 연구자들에 의해 사용될 수 있음을 강조합니다.[6]

유니코드는 하나 이상의 코드 포인트의 시퀀스로 표현되는 모든 타밀 순자음과 음절에 대한 규범적 명명 시퀀스를 정의하며, 유니코드 표준의 일부로 전용 테이블이 올바른 글리프와 함께 모든 시퀀스를 나열합니다. 컨소시엄은 기존 유니코드 표현이 존재하지 않는 문자에 대한 제안을 받아들일 수 있다고 지적합니다. 예를 들어 2019년 버전 12.0에서 타밀 보충 블록으로 여러 역사적 분수와 기타 기호를 추가하는 등.[6]

대조와 관련하여 컨소시엄은 코드 포인트별 정렬에서 올바른 결과를 얻는 것은 규칙보다는 예외라고 주장하며, 수정되지 않은 ASCII 베타 순서에서 대문자 라틴 문자 Z가 소문자 a 앞에 정렬된다는 점을 강조하고, 대조 규칙이 언어에 따라 종종 다르다는 점도 강조합니다(: ö 참조). 공간 효율성과 관련하여 컨소시엄은 텍스트가 차지하는 저장 공간과 대역폭이 이미지, 비디오와 같은 다른 동반 매체에 크게 가려져 있으며, 텍스트 콘텐츠는 ZIP Deflate와 같은 범용 압축 방식에서 우수한 성능을 발휘한다고 주장합니다.[6]

유니코드 안정성 정책

유니코드는 처음 공개되었을 때(버전 1.0.0), 제한된 안정성만을 보장했습니다. 와 같이 티벳어의 원본 블록은 버전 1.0.1에서 삭제되었고(이후 미얀마어 블록이 그 공간을 점유하고 있습니다), 한국어 음절의 원본 블록은 버전 2.0에서 삭제되었습니다(현재는 CJK Unified Ideographes Extension A가 점유하고 있습니다). 현재 한글 음절에 대한 한글 음절 블록과 현재 티베트어 블록 모두 유니코드 2.0으로 거슬러 올라갑니다. 이것은 해당 쓰기 시스템에서 유니코드를 사용하는 기존 콘텐츠가 거의 또는 전혀 존재하지 않는다는 가정 하에 이루어졌습니다.[7] 왜냐하면 해당 쓰기 시스템의 모든 기존 유니코드 콘텐츠 및 입력 방법과의 호환성이 깨지기 때문입니다. 소위 "한국어 엉망"이라고 불리는 이 후, 책임 있는 위원회들은 이제 유니코드 안정 정책의 일부가 [7]된 이러한 호환성을 깨는 변경을 다시는 하지 않겠다고 약속했습니다.[8]

이후 중국과 북한이 각각 티베트와 한국의 캐릭터 모델을 재암호화하거나 변경해야 한다는 요구에도 불구하고 이러한 안정 정책은 유지되고 있습니다.[9][10][11][12] 마찬가지로, 타밀어와 관련하여, 컨소시엄은 "기존 구현에 대한 표준의 안정성을 유지하는 중요한 문제"를 강조하고, "표준을 불안정하게 하는 결과적인 비용과 영향"이 처리 속도나 저장 공간의 어떤 효율성 이점보다 훨씬 클 것이라고 주장합니다.[6]

유니코드에 의해 거부된[13] 타밀어를 재인코딩하자는 제안이 있었습니다. 그 제안은 재인코딩이 피해를 줄 것이며 유니코드 타밀어 인코딩이 부족하다는 확실한 증거가 없다는 것이었습니다.[14]

대안

오픈타밀

Open-Tamil 프로젝트는[15] 많은 일반적인 작업을 제공합니다. TACE16을 사용하지 않고 타밀어 텍스트 처리 수준 1을 준수한다고 주장하지만 유니코드 타밀어에 필요한 추가 프로그래밍 로직 위에 작성됩니다.

참고 항목

각주

  1. ^ 다른 모델을 사용하는 티베트어TIS-620에서 파생된 모델을 사용하는 태국어 및 관련 스크립트는 제외합니다.

참고문헌

  1. ^ a b c d REPORT ON THE FINAL RECOMMENDATIONS OF THE TASK FORCE ON TACE16 (PDF) (Report).
  2. ^ a b "TENDER DOCUMENT for Development of Tamil Fonts and Tamil Keyboard driver for 16-bit encodings (Unicode and TACE16)" (PDF). Tamil Virtual Academy.
  3. ^ a b "தமிழ் எழுத்துருக்கள்". தமிழ் இணையக் கல்விக்கழகம் TAMIL VIRTUAL ACADEMY.
  4. ^ a b 타밀나두 정부 주문서(G.O.), 키보드 드라이버글꼴 아카이브 2023년 12월 27일 오늘.
  5. ^ Tamil Virtual Academy. "Annexure 4: Typewriter Extended Keyboard Sequence for Unicode and TACE16" (PDF). Tender Document for Development of Tamil Fonts and Tamil Keyboard driver for 16-bit encodings (Unicode and TACE16). Chennai.
  6. ^ a b c d "FAQ - Tamil Language and Script". Unicode Consortium.
  7. ^ a b Yergeau, F. (1998). UTF-8, a transformation format of ISO 10646. IETF. doi:10.17487/rfc2279. RFC 2279.
  8. ^ "Unicode Character Encoding Stability Policies". Unicode Consortium]].
  9. ^ West, Andrew (2006-09-14). "Precomposed Tibetan Part 1 : BrdaRten". BabelStone.
  10. ^ China National Body (2003-10-20). "China's Statement of BrdaRten ad hoc". ISO/IEC JTC1/SC2/WG2 N2674.
  11. ^ Karlsson, Kent (2000-03-02). "Comments on DPRK New Work Item proposal on Korean characters". ISO/IEC JTC1/SC2/WG2 N2167.
  12. ^ Cho, Chun-Hui (2000-07-05). "DPRK letter on character names and ordering in 10646-1: 2000" (PDF). ISO/IEC JTC1/SC2/WG2 N2231.
  13. ^ Anantham, A.R.Amaithi (2012-01-26). "Fresh Encoding Proposals" (PDF). Unicode.
  14. ^ "Archive of Notices of Non-Approval". Unicode. 2012-03-05.
  15. ^ Annamalai, M.; Arulalan, T., Open-Tamil: Tamil language text processing tools for Python v3, retrieved 2023-12-31