정보 교환을 위한 인도 스크립트 코드

Indian Script Code for Information Interchange

정보 교환을 위한 인도 스크립트 코드(ISCII)는 인도의 다양한 문자 시스템을 나타내기 위한 코드 체계입니다.주요 인디케이터 문자와 로마자 표기를 인코딩합니다.지원되는 스크립트는 Bengali-Asamese, Devanagari, Gujarati, Gurmukhi, Kannada, Malayalam, Oria, TamilTelugu입니다.ISCII는 페르시아어를 기반으로 한 인도의 문자 체계를 부호화하지 않지만, 그럼에도 불구하고 카슈미르어, 신디어, 우르두어, 페르시아어, 파슈토어, 아랍어대한 문자 체계 전환 코드를 제공한다.페르시아어를 기반으로 한 문자 체계는 이후 PASCII 인코딩으로 인코딩되었다.

ISCII는 특정 정부기관 이외에서는 널리 사용되고 있지 않지만,ATR 메커니즘은 기존 Mac OS인 Mac OS Devanagari에서 [1]사용되었으며, 현재는 Unicode에 의해 거의 사용되지 않게 되었습니다.Unicode는 각 Indicator 쓰기 시스템에 대해 개별 블록을 사용하며 각 블록 내의 ISCII 레이아웃을 대부분 보존합니다.

배경

브라흐미에서 파생된 문자 체계도 비슷한 구조를 가지고 있다.따라서 ISCII는 같은 코드 포인트에서 같은 음성 값을 가진 문자를 인코딩하여 다양한 스크립트를 오버레이합니다.예를 들어 ISCII 코드 0xB3 0xDB는 [ki]를 나타냅니다.이것은 말레이람어로 ി in, 데바나가리어로 ि in, 구르무키어로 ਿਿ, 타밀어로 ி in as로 표시됩니다.필기 시스템은 마크업에 의해 리치 텍스트로 선택되거나 아래에 설명된 ATR 코드에 의해 플레인 텍스트로 선택될 수 있습니다.

단일 인코딩을 사용하는 한 가지 동기는 하나의 문자 시스템에서 다른 문자 시스템으로 쉽게 번역할 수 있다는 아이디어입니다.그러나 비호환성이 충분하기 때문에 이는 실제적인 아이디어가 아닙니다.

ISCII는 8비트 부호화입니다.하위 128개의 코드 포인트는 플레인 ASCII이며 상위 128개의 코드 포인트는 ISCII 고유합니다.문자를 나타내는 코드 포인트 외에 ISCII는 다음 바이트가 2종류의 정보 중 하나를 포함함을 나타내는 니모닉 ATR을 가진 코드 포인트를 사용합니다.한 세트의 값은 다음 쓰기 시스템 표시기 또는 줄 끝까지 쓰기 시스템을 변경합니다.다른 값 집합은 굵은 글씨 및 기울임꼴과 같은 표시 모드를 선택합니다.ISCII는 기본 쓰기 시스템을 나타내는 수단을 제공하지 않습니다.

코드 페이지 레이아웃

다음 표는 Devanagari의 문자 집합을 보여 줍니다.Asamese, Bengali, Gujarati, Gurmukhi, Kannada, Malayalam, Oria, Tamil 및 Telugu의 코드 세트는 유사하며 각 Devanagari 형식은 각 문자 시스템에서 동등한 형식으로 대체됩니다.각 문자는 10진 코드와 유니코드 대응 문자와 함께 표시됩니다.

ISCII 데바나가리
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x 없음 SOH STX ETX 전원 ENQ ACK BS HT LF VT FF CR 그렇게 SI
1배 DLE DC1 DC2 DC3 DC4 NAK 동기 ETB 할 수 있다 전자파 후보선수 ESC FS GS RS& 미국
2배 SP ! " # $ % & ' ( ) * + , - . /
3배 0 1 2 3 4 5 6 7 8 9 : ; < > = > ?
4배 @ A B C D E F G H I J K L M N O
5배 P Q R S T U V W X Y Z [ \ ] ^ _
6배 ' a b c d e f g h i j k l m n o
7배 p q r s t u v w x y z { } ~
8배
9배
도끼
Bx
Cx य़
Dx INV ि
ATR
Fx 익스텐트
정의되어 있지 않다
리드 바이트

특수 코드 포인트

INV 문자: 코드 포인트 D9(217)
INV(보이지 않는 자음) 문자는 결합 요소를 분리하여 표시하기 위해 유사 일치어로 사용됩니다.예를 들어, क(ka) + ((할란트) + INV = क(half ka)입니다.Unicode에 상당하는 것은, U+200D ZERO WIDE JOINER(ZWJ)입니다.단, 다음에 기술한 바와 같이 ISCII 할란트문자는 ISCII nukta와 2배 또는 조합하여 Unicode의 ZWNJ 또는 ZWJ에 의해 생성되는 효과를 얻을 수 있습니다.따라서 애플은 라운드 [1]트립을 보증하기 위해 ISCII INV 문자를 Unicode 왼쪽에서 오른쪽으로 매핑합니다.
ATR 문자: 코드 포인트 EF(239)
ATR(아트리뷰트) 문자와 바이트코드는 다음 ATR 시퀀스 또는 행의 말미까지 다른 글꼴 속성(굵은 글씨 등) 또는 다른 ISCII 또는 PASCII 언어(Bengali 등)로 전환하기 위해 사용됩니다.글꼴 속성은 Unicode의 일부가 아니며 각 스크립트에는 고유한 코드 포인트 세트가 있기 때문에 Unicode에 직접 대응하는 것은 없습니다.
프레젠테이션 속성
ATR + 바이트 니모닉 포맷 옵션
0x30 블록 굵은 글씨
0x31 ITA 이탤릭체
0x32 UL 밑줄 친다
0x33 EXP 확장된
0x34 HLT 하이라이트
0x35 OTL 개요
0x36 SHD 그림자
0x37 정상 상위 절반 문자(LOW와 함께 사용하여 이중 높이 문자 생성)
0x38 낮다 하위 절반 문자(TOP와 함께 이중 높이 문자 작성에 사용)
0x39 DBL 전체 행의 2배 폭 및 2배 높이
ISCII 스크립트로 이행합니다.
ATR + 바이트 니모닉 ISCII 스크립트
0x40 데프 기본 스크립트(줄 바꿈 후 다시 전환되는 스크립트)
0x41 RMN 로마자 음역
0x42 개발 데바나가리
0x43 BNG 벵골 문자
0x44 TML 타밀 문자
0x45 TLG Telugu 스크립트
0x46 ASM Assamese 스크립트
0x47 오리 오디아 문자
0x48 KND 칸나다 문자
0x49 MLM 말레이람 문자
0x4A GJR 구자라티 문자
0x4B PNJ 구르무쿠 gur
PASC로의 이행
ATR + 바이트 니모닉 PASCII 로케일
0x71 ARB 아라비아 문자
0x72 PES 페르시아 문자
0x73 URD 우르두 문자
0x74 SND 신디 문자
0x75 KSM 카슈미르 문자
0x76 PST 파슈토 문자
EXT 문자: 코드 포인트 F0(240)
EXT(Vedic의 확장자) 문자 뒤에 바이트 코드가 이어지는 것은 Vedic 액센트를 나타냅니다.Vedic 액센트가 다른 코드 포인트에 할당되어 있기 때문에 유니코드에 직접 대응하는 것은 없습니다.
Halant 문자 ": 코드 포인트 E8(232)
할란트 문자는 자음에서 암묵적인 모음을 제거하고 자음 사이에 결음 자음을 나타내기 위해 사용됩니다.예를 들어, क(ka) + ((할란트) + ((ta) = क(kta)입니다.시퀀스 ( ( halant ) + ( ( halant )는 명시적인 할런트를 가진 결절을 나타냅니다.예를 들어, ( ( ka ) + ( ( halant ) + ( ( ta ) = क 。수열 ्(할란트) + ((nukta)는 반자음이 있는 접속어를 표시합니다(예: )(ka) + ((할란트) + )(ta) = क).
ISCII와 Unicode 핼런트/비라마 동작 간의 대응
ISCII 유니코드
단일 할로겐트 E8 할란트 094D
할란트 + 할란트 E8 E8 할란트 + ZWNJ 094D 200C
할란트 + 핵타 E8 E9 할란트 + ZWJ 094D 200D
Nukta 문자 ": 코드 포인트 E9(233)
다른 ISCII 문자 뒤에 오는 nukta 문자는 메인 ISCII 세트에 존재하지 않는 다수의 희귀 문자에 사용됩니다.예를 들어 (ka) + (nukta) = (qa) 입니다.이러한 문자는 다음 표와 같이 Unicode 형식으로 미리 구성되어 있습니다.
ISCII nukta 시퀀스에 대응하는 단일 Unicode 문자
ISCII
코드 포인트
원래의
성격
성격
핵타와 함께
유니코드
코드 포인트
A1(161) 0950
A6(166) 090C
A7(167) 0961
AA(176) 0960
B3(179) क़ 0958
B4(180) ख़ 0959
B5(181) ग़ 095A
BA(186년) ज़ 095B
BF(191) ड़ 095C
C0(192) ढ़ 095D
C9(201) फ़ 095E
DB(219) ि 0962
DC(220) 0963
DF (223) 0944
EA (234) 093D

ISCII 변환 코드페이지

Unicode(UTF-8)에서ISCII/ANSI 코딩으로 변환하려면 , 다음의 코드 페이지를 사용할 수 있습니다.

  • 57002: 데바나가리(힌디, 마라티, 산스크리트, 곤카니)
  • 57003: 벵골
  • 57004: 타밀어
  • 57005: Telugu
  • 57006: Assamese
  • 57007: Odia
  • 57008: 칸나다
  • 57009: 말레이람
  • 57010: 구자라티
  • 57011: 펀자비(구르무키)

모든 언어의 코드 포인트

레퍼런스

  1. ^ a b Apple (2005-04-05) [1998-02-05]. "Map (external version) from Mac OS Devanagari encoding to Unicode 2.1 and later". Unicode Consortium.

외부 링크