JIS 인코딩
JIS encoding컴퓨팅에서 JIS 인코딩은 일본어 인코딩을 위한 몇 가지 일본 산업 표준을 말한다.[1] 엄밀히 말하면 이 용어는 다음 중 하나를 의미한다.
- 일본어용 표준 코드화된 문자 집합(특히:
- JIS X 0202(ISO-2022-JP라고도 함)는 7비트 데이터만 지원하는 전송 매체를 통해 JIS 문자 데이터를 전송하기 위한 인코딩 메커니즘의 집합이다.
실제로 "JIS 인코딩"은 보통 JIS X 0202로 인코딩된 JIS X 0208 문자 데이터를 말한다. 예를 들어, IANA는 JIS_Encoding JIS X 0202를 참조하는 라벨 및 ISO-2022-JP 에 의해 정의된 프로파일을 참조하는 라벨 RFC1468.[2]
JIS 문자를 위한 다른 인코딩 메커니즘으로는 Shift JIS 인코딩과 EUC-JP가 있다. 시프트 JIS는 역호환성 방식으로 JIS X 0208부터 JIS X 0201까지 칸지, 전폭 히라가나, 전폭 가타카나를 추가한다.[3] 시프트 JIS는 아마도 일본에서 가장 널리 사용되는 인코딩일 것이다. 단바이트 JIS X 0201 문자 세트와의 호환성을 통해 전자 장비 제조업체(예: 현금 레지스터 제조업체)는 kanji를 표시하지 못하는 오래된 값싼 장비에서 새로운 장비로 업그레이드 할 수 있었기 때문이다.아로터 세트의 적합성
EUC-JP는 JIS 인코딩이 POSIX 표준과 호환되지 않는 UNIX 시스템에 사용된다.
JIS 코딩 문자에 대한 보다 최근의 대안은 유니코드(UCS 코딩 문자)이며, 특히 UTF-8 인코딩 메커니즘에서 그러하다.
인코딩 비교
다음 표는 JIS X 0208에 대한 세 가지 주요 인코딩 방식의 특징을 비교한 것이다.
| 인코딩 | 대체 이름 | 7비트?[a] | ISO 2022? | 스테이트리스?[b] | ASCII를 수락하시겠습니까? | 0x00–7F 항상 ASCII? | 8비트 JIS X 0201의 슈퍼셋? | JIS X 0212 지원? | 바이트별 자체 동기화? | 비트의 자체 동기화? |
|---|---|---|---|---|---|---|---|---|---|---|
| ISO-2022-JP | "JIS"(JIS X 0202) | 네 | 네 | 아니오[c] | 네 | 시퀀스가 ASC가 아닐 수 있음II[c] | 아니오(인코딩 가능)[d] | 가능[e] | 아니요. | 아니요. |
| Shift_JIS | "SJIS" | 아니요. | 아니요. | 네 | 거의[f] | 분리된 바이트는 ASC가 아닐 수 있음II[g] | 네 | 아니요. | 아니요. | 아니요. |
| EUC-JP | 「UJIS」(유닉스화되지 않은 JIS) | 아니요. | 네[h] | 네[h] | 보통[i] | 네 | 아니오(인코딩됨)[j] | 일반적으로 사용[k] 가능 | 아니요. | 아니요. |
| 비교를[l] 위한 유니코드 형식 | ||||||||||
| UTF-8 | 아니요. | 아니요. | 네 | 네 | 네 | 아니오(인코딩됨) | 사용 가능 | 네 | 보통[m] | |
| UTF-16 | "유니코드"[n] | 아니요. | 아니요. | 네 | 아니요. | 아니요. | 아니오(인코딩됨) | 사용 가능 | 16비트 이상의 단어만. | 아니요. |
| GB 18030 | 아니요. | 아니오[o] | 네 | 네 | 분리된 바이트는 ASC가 아닐 수 있음II. | 아니오(인코딩됨) | 사용 가능 | 아니요. | 아니요. | |
| UTF-32 | 아니요. | 아니요. | 네 | 아니요. | 아니요. | 아니오(인코딩됨) | 사용 가능 | 보통은 실제로[p] | 아니요. | |
- ^ 즉, 8비트 클린 전송이 필요하지 않다.
- ^ 즉, 주어진 문자를 인코딩하는 데 사용된 순서는 이전 문자가 무엇이었든 상관없이 항상 동일하다. 상태(컴퓨터 과학)를 참조하십시오.
- ^ a b ISO-2022-JP는 상태 저장 인코딩이다. 모든 차트는 0x21–7E에 걸쳐 인코딩되며 ANSI 탈출기를 사용하여 전환된다. 따라서 초기 상태에서는 ASCII이지만 비 ASC의 전체 시퀀스II 문자는 ASCII 바이트로 인코딩할 수 있다.
- ^ JIS X 0201 가타카나는 JIS X 0202와 ISO 2022에서 이용할 수 있지만, 공통의 확장이지만 기본 ISO-2022-JP 프로필에는 포함되지 않는다.
- ^ JIS X 0212는 JIS X 0202 및 ISO 2022에서 사용할 수 있으며 ISO-2022-JP-1 및 ISO-2022-JP-2 프로파일에 포함되지만 기본 ISO-2022-JP 프로파일에는 포함되지 않는다.
- ^ Shift_J의 단일 바이트 문자 0x21–7EIS는 8비트 JIS X 0201의 슈퍼셋이 되려면 ISO-646-JP가 적당하지만, ASCII로 디코딩(필수적으로 표시되지는 않음)되는 경우가 많은데, 이는 두 곳에서만 차이가 난다.
- ^ 일부(전부는 아님) ASCII 바이트는 Shift_J에서 더블바이트 문자의 두 번째 바이트로 나타날 수 있지만 첫 번째 바이트는 표시할 수 없다.IS. 따라서 2개 이상의 ASCII 바이트 순서에서 두 번째 바이트는 반드시 ASCII(또는 ISO-646-JP) 문자여야 한다.
- ^ a b 포장형 EUC는 ISO 2022 메커니즘을 기반으로 하며, 사전 계획된 charset 지정을 기반으로 한다. Charset 지정은 이탈하고 잠금 시프트는 피하며, 반면에 단일 변속은 비상태적 방식으로 구현될 수 있다. 그럼에도 불구하고 ISO 2022의 제약은 따른다.
- ^ EUC-JP에서 단일 바이트 문자 0x21–7E는 일반적으로 ASCII로 간주되지만 때로는 ISO-646-JP로 취급되기도 한다.
- ^ Shift_J와 달리IS, EUC-JP는 JIS X 0201 가타카나(단일변속)의 표현이 다르기 때문에, 사전 변환 없이 플레인 8비트 JIS X 0201 입력을 처리하지 않는다.
- ^ EUC-JP의 JIS X 0212가 항상 구현되는 것은 아니다.
- ^ 유니코드 형식은 인코딩 자체의 속성 외에도 기본 문자 집합에서 비롯되는 추가적인 장점을 가지고 있는데, 이는 JIS 코드 문자로 한정되지 않고 UCS 전체(JIS 코드 문자의 전체 레퍼토리 포함)를 나타낼 수 있기 때문에 국제적인 사용에 적합하다는 것이다. 그들은 또한 그들의 더 큰 기본 레퍼토리와 지정된 사적 사용 영역 때문에 독점적 확장을 충돌함으로써 덜 심각한 영향을 받는다.
- ^ UTF-8로 인코딩된 텍스트의 대부분의 비트 프레임 편차는 유효하지 않은 UTF-8을 생성하지만, 하나 이상의 비트로 프레임히프된 경우에도 유효한 UTF-8로 남아 있는 문자의 시퀀스를 구성할 수 있다.
- ^ 마이크로소프트만 해당.
- ^ GB 18030과 GBK는 EUC-CN 형태의 GB/T 2312를 확장한 것이지만 EUC-JP(또는 원래 EUC-CN)와 달리 EUC나 ISO 2022의 제약을 따르지 않는다.
- ^ 비록 이론적으로 UTF-32는 32비트 드워드에 대해서만 자가 동기화되지만, 21비트 값을 나타내기 위해 32비트 값을 사용하는 것은 실제로 UTF-32는 관련된 코드 포인트에 따라 문자 경계에 맞추어 일반적으로 사용할 수 있는 각 문자의 하이엔드에서 최소 11개의 0비트의 연속 실행을 포함한다는 것을 의미한다.
참고 항목
참조
- ^ Haralambous, Yannis (2007). Fonts & Encodings. O'Reilly Media. pp. 42–44. ISBN 9780596102425.
- ^ "Character Sets". IANA.
- ^ Lunde, Ken (2009). CJKV Information Processing. O'Reilly Media. pp. 262–268. ISBN 9780596514471.