HZ(문자 부호화)

HZ (character encoding)
HZ 부호화
MIME / IANAHZ-GB-2312
언어중국어, 영어, 러시아어 간체
작성자이풍풍
표준.RFC 1843
분류CJK 부호화, ASCII 장갑, 가변 폭 부호화, 스테이트부호화
변환/인코딩GB 2312
선행zW
에 의해 성공자견적 인쇄 가능, UTF-7, 8BITMIME

HZ 문자[1] 인코딩은 이전에는 이메일 및 USENET 게시물에 일반적으로 사용되었던 GB 2312 인코딩입니다.1989년 스탠퍼드 대학의 이풍(李風·중국어: 李風)이 설계해 1995년 RFC [2]1843으로 코드화했다.

HZ(간체 중국어: tradition, 번체 중국어: lit, 점등)는 한자의 줄임말입니다.'한자') 인코딩은 당시 7비트 문자만 허용하던 이메일을 통해 한자를 쉽게 사용할 수 있도록 고안됐다.따라서 표준 ISO 2022 이스케이프 시퀀스(ISO-2022-JP의 경우) 또는 8비트 문자(EUC의 경우) 대신 HZ 코드는 인쇄 가능한 7비트 문자만 사용하여 한자를 나타냅니다.

1980년대 후반과 1990년대 초반에는 일반적으로 8비트 문자 전송이나 이스케이프 문자를 허용하지 않았던 USENET 네트워크에서도 인기가 있었다.

역사

HZ는 이전 "zW" 인코딩을 대체했습니다. 이 인코딩은 행 전체를 문자로 시작하여 GB 2312 텍스트로 표시했습니다.zW를 클릭합니다.[3]

구조와 용도

HZ 부호화 시스템에서는 문자 시퀀스 "~{"와 "~}"가 이스케이프 시퀀스로 동작합니다.이들 사이의 모든 것은 GB 2312로 인코딩된 중국어로 해석됩니다(가장 중요한 비트는 무시됩니다).이스케이프 시퀀스 이외의 문자는 ASCII로 간주됩니다.

예를 들어 GB 2312, EUC-CN 및 HZ 코드 간의 관계를 나타냅니다.

다양한 형식의 GB 2312 코드(0xD2BB)로 문자 '"'(1개)를 나타냅니다.
형태 코드 이스케이프 시퀀스 포함 언급
쿠텐 / 큐웨이 / form form형식 5027 구역/방향/행(구//)) 50, 포인트(10/웨이/)) 27
ISO 2022 양식 5216 3B16 0E16 5216 3B16 0F16 50 + 32 = 82 = 5216
EUC-CN 폼 D216 BB16 D216 BB16 5216 † 8016 = D216
HZ 형식(표준) 5216 3B16 7E16 7B16 5216 3B16 7E16 7D16 HZ 디코더 없이 ~{R;~}로 표시됨
HZ 형식(대체) D216 BB16 7E16 7B16 D216 BB16 7E16 7D16 EUC 폼은 일부 디코더에서 허용 가능

HZ는 원래 7비트 코드로만 사용하도록 설계되었습니다.다만, 상황이 허락하는 경우, 이스케이프 시퀀스 「~{」와「~}」가 EUC-CN으로 표현되는 문자를 둘러싸는 경우가 있습니다.이 대체 용도는 HZ 디코더 소프트웨어 또는 EUC-CN을 인식하는 시스템을 사용하여 중국어를 읽을 수 있도록 합니다.

또, 사양에서는, 다음과 같이 정의하고 있습니다.

  • 시퀀스 "~~"는 단일 ASCII "~"를 인코딩하는 것으로 간주됩니다.
  • ~ 뒤에 줄 바꿈이 있는 문자는 폐기됩니다.

단, 모든 HZ 디코더가 이 두 가지 규칙을 따르는 것은 아닙니다.

HZ 인코더 및 디코더

최초의 HZ 인코더와 디코더는 1989년 유닉스 [4]운영체제용 코드 발명자에 의해 작성되었다.

또한 Unix 운영체제용인 hzty 프로그램은 최초의 가장 인기 있는 HZ 디코더 중 하나였다.이스케이프 시퀀스(예: "~{" 및 "~")를 표시하고 "~" 및 "~" 뒤에 줄바꿈을 특별히 처리하지 않는다는 점에서 사양에서 벗어납니다.이는 아마도 한 문자를 텍스트 화면 상의 한 화면 위치를 차지하는 소프트웨어가 수정 없이 올바르게 작동하도록 하기 위한 것일 것입니다.

Microsoft Windows 에서의 지원은 나중에 이루어졌으며, 다수의 서드파티 "중국 시스템"이 HZ를 지원합니다.이러한 시스템은 이스케이프 시퀀스를 숨길 수 있는 옵션을 제공할 수 있습니다.

단점들

이스케이프 시퀀스 및 이스케이프 딜리미터는 ASCII에서 인쇄 가능한 문자이기 때문에 HZ에서 Unicode로 왕복하는 공격 바이트시퀀스를 작성하는 것은 매우 간단합니다.따라서 HZ 인코딩 사용은 멀웨어 보호 [5][better source needed]제품군에 의해 의심스러운 것으로 취급됩니다.

레퍼런스