JIS 인코딩

JIS encoding

컴퓨팅에서 JIS 인코딩일본어 인코딩을 위한 몇 가지 일본 산업 표준을 말한다.[1] 엄밀히 말하면 이 용어는 다음 중 하나를 의미한다.

  • 일본어용 표준 코드화된 문자 집합(특히:
    • JIS X 0201, 기본 7비트 ASCII 문자(일부 수정사항 포함)와 64개의 절반 너비의 가타카나 문자를 포함하는 ISO 646(ASCII)의 일본어 버전.
    • JIS X 0208, 6355칸지, 524문자(하나 94x94평면) 등 6,879자를 포함하는 가장 일반적인 칸지 문자 집합이다.
    • JIS X 0212, JIS X 0208의 부록으로 5801칸지, 합계 12156칸지(두 번째 94x94평면)
    • JIS X 0213, JIS X 0208 (2면)
  • JIS X 0202(ISO-2022-JP라고도 함)는 7비트 데이터만 지원하는 전송 매체를 통해 JIS 문자 데이터를 전송하기 위한 인코딩 메커니즘의 집합이다.

실제로 "JIS 인코딩"은 보통 JIS X 0202로 인코딩된 JIS X 0208 문자 데이터를 말한다. 예를 들어, IANA는 JIS_Encoding JIS X 0202를 참조하는 라벨 및 ISO-2022-JP 에 의해 정의된 프로파일을 참조하는 라벨 RFC1468.[2]

JIS 문자를 위한 다른 인코딩 메커니즘으로는 Shift JIS 인코딩과 EUC-JP가 있다. 시프트 JIS는 역호환성 방식으로 JIS X 0208부터 JIS X 0201까지 칸지, 전폭 히라가나, 전폭 가타카나를 추가한다.[3] 시프트 JIS는 아마도 일본에서 가장 널리 사용되는 인코딩일 것이다. 단바이트 JIS X 0201 문자 세트와의 호환성을 통해 전자 장비 제조업체(예: 현금 레지스터 제조업체)는 kanji를 표시하지 못하는 오래된 값싼 장비에서 새로운 장비로 업그레이드 할 수 있었기 때문이다.아로터 세트의 적합성

EUC-JP는 JIS 인코딩이 POSIX 표준과 호환되지 않는 UNIX 시스템에 사용된다.

JIS 코딩 문자에 대한 보다 최근의 대안은 유니코드(UCS 코딩 문자)이며, 특히 UTF-8 인코딩 메커니즘에서 그러하다.

인코딩 비교

다음 표는 JIS X 0208에 대한 세 가지 주요 인코딩 방식의 특징을 비교한 것이다.

인코딩 대체 이름 7비트?[a] ISO 2022? 스테이트리스?[b] ASCII를 수락하시겠습니까? 0x00–7F 항상 ASCII? 8비트 JIS X 0201의 슈퍼셋? JIS X 0212 지원? 바이트별 자체 동기화? 비트의 자체 동기화?
ISO-2022-JP "JIS"(JIS X 0202) 아니오[c] 시퀀스가 ASC가 아닐 수 있음II[c] 아니오(인코딩 가능)[d] 가능[e] 아니요. 아니요.
Shift_JIS "SJIS" 아니요. 아니요. 거의[f] 분리된 바이트는 ASC가 아닐 수 있음II[g] 아니요. 아니요. 아니요.
EUC-JP 「UJIS」(유닉스화되지 않은 JIS) 아니요. [h] [h] 보통[i] 아니오(인코딩됨)[j] 일반적으로 사용[k] 가능 아니요. 아니요.
비교를[l] 위한 유니코드 형식
UTF-8 아니요. 아니요. 아니오(인코딩됨) 사용 가능 보통[m]
UTF-16 "유니코드"[n] 아니요. 아니요. 아니요. 아니요. 아니오(인코딩됨) 사용 가능 16비트 이상의 단어만. 아니요.
GB 18030 아니요. 아니오[o] 분리된 바이트는 ASC가 아닐 수 있음II. 아니오(인코딩됨) 사용 가능 아니요. 아니요.
UTF-32 아니요. 아니요. 아니요. 아니요. 아니오(인코딩됨) 사용 가능 보통은 실제로[p] 아니요.
  1. ^ 즉, 8비트 클린 전송이 필요하지 않다.
  2. ^ 즉, 주어진 문자를 인코딩하는 데 사용된 순서는 이전 문자가 무엇이었든 상관없이 항상 동일하다. 상태(컴퓨터 과학)를 참조하십시오.
  3. ^ a b ISO-2022-JP는 상태 저장 인코딩이다. 모든 차트는 0x21–7E에 걸쳐 인코딩되며 ANSI 탈출기를 사용하여 전환된다. 따라서 초기 상태에서는 ASCII이지만 비 ASC의 전체 시퀀스II 문자는 ASCII 바이트로 인코딩할 수 있다.
  4. ^ JIS X 0201 가타카나는 JIS X 0202와 ISO 2022에서 이용할 수 있지만, 공통의 확장이지만 기본 ISO-2022-JP 프로필에는 포함되지 않는다.
  5. ^ JIS X 0212는 JIS X 0202 및 ISO 2022에서 사용할 수 있으며 ISO-2022-JP-1 및 ISO-2022-JP-2 프로파일에 포함되지만 기본 ISO-2022-JP 프로파일에는 포함되지 않는다.
  6. ^ Shift_J의 단일 바이트 문자 0x21–7EIS는 8비트 JIS X 0201의 슈퍼셋이 되려면 ISO-646-JP가 적당하지만, ASCII로 디코딩(필수적으로 표시되지는 않음)되는 경우가 많은데, 이는 두 곳에서만 차이가 난다.
  7. ^ 일부(전부는 아님) ASCII 바이트는 Shift_J에서 더블바이트 문자의 두 번째 바이트로 나타날 수 있지만 첫 번째 바이트는 표시할 수 없다.IS. 따라서 2개 이상의 ASCII 바이트 순서에서 두 번째 바이트는 반드시 ASCII(또는 ISO-646-JP) 문자여야 한다.
  8. ^ a b 포장형 EUC는 ISO 2022 메커니즘을 기반으로 하며, 사전 계획된 charset 지정을 기반으로 한다. Charset 지정은 이탈하고 잠금 시프트는 피하며, 반면에 단일 변속은 비상태적 방식으로 구현될 수 있다. 그럼에도 불구하고 ISO 2022의 제약은 따른다.
  9. ^ EUC-JP에서 단일 바이트 문자 0x21–7E는 일반적으로 ASCII로 간주되지만 때로는 ISO-646-JP로 취급되기도 한다.
  10. ^ Shift_J와 달리IS, EUC-JP는 JIS X 0201 가타카나(단일변속)의 표현이 다르기 때문에, 사전 변환 없이 플레인 8비트 JIS X 0201 입력을 처리하지 않는다.
  11. ^ EUC-JP의 JIS X 0212가 항상 구현되는 것은 아니다.
  12. ^ 유니코드 형식은 인코딩 자체의 속성 외에도 기본 문자 집합에서 비롯되는 추가적인 장점을 가지고 있는데, 이는 JIS 코드 문자로 한정되지 않고 UCS 전체(JIS 코드 문자의 전체 레퍼토리 포함)를 나타낼 수 있기 때문에 국제적인 사용에 적합하다는 것이다. 그들은 또한 그들의 더 큰 기본 레퍼토리와 지정된 사적 사용 영역 때문에 독점적 확장을 충돌함으로써 덜 심각한 영향을 받는다.
  13. ^ UTF-8로 인코딩된 텍스트의 대부분의 비트 프레임 편차는 유효하지 않은 UTF-8을 생성하지만, 하나 이상의 비트로 프레임히프된 경우에도 유효한 UTF-8로 남아 있는 문자의 시퀀스를 구성할 수 있다.
  14. ^ 마이크로소프트만 해당.
  15. ^ GB 18030과 GBK는 EUC-CN 형태의 GB/T 2312를 확장한 것이지만 EUC-JP(또는 원래 EUC-CN)와 달리 EUC나 ISO 2022의 제약을 따르지 않는다.
  16. ^ 비록 이론적으로 UTF-32는 32비트 드워드에 대해서만 자가 동기화되지만, 21비트 값을 나타내기 위해 32비트 값을 사용하는 것은 실제로 UTF-32는 관련된 코드 포인트에 따라 문자 경계에 맞추어 일반적으로 사용할 수 있는 각 문자의 하이엔드에서 최소 11개의 0비트의 연속 실행을 포함한다는 것을 의미한다.

참고 항목

참조

  1. ^ Haralambous, Yannis (2007). Fonts & Encodings. O'Reilly Media. pp. 42–44. ISBN 9780596102425.
  2. ^ "Character Sets". IANA.
  3. ^ Lunde, Ken (2009). CJKV Information Processing. O'Reilly Media. pp. 262–268. ISBN 9780596514471.