Charset 검출

문자 인코딩 검출, 문자 집합 검출 또는 코드 페이지 검출은 텍스트를 나타내는 일련의 바이트의 문자 인코딩을 경험적으로 추측하는 프로세스입니다.이 기술은 신뢰할 수 없는 것으로 인식되며 HTTP와 같은 특정 메타데이터가 있을 때만 사용됩니다.Content-Type: 헤더를 사용할 수 없거나 신뢰할 수 없는 것으로 간주됩니다.

이 알고리즘은 일반적으로 검출되는 각 코드 페이지에 인코딩된 다양한 언어의 삼각문자 빈도 분포와 같은 바이트 패턴의 통계 분석을 포함합니다. 이러한 통계 분석은 언어 검출을 수행하기 위해서도 사용할 수 있습니다.이 과정은 통계 데이터에 의존하기 때문에 실수하지 않습니다.

일반적으로 문자 집합 검출이 올바르지 않으면 mojibake가 발생합니다.

charset 검출이 확실하게 기능하는 몇 안 되는 경우 중 하나는 UTF-8 검출입니다.이는 UTF-8에서 비활성 바이트시퀀스의 비율이 높기 때문에 높은 비트세트를 가진 바이트를 사용하는 다른 부호화 텍스트가 UTF-8 유효성 테스트를 통과할 가능성은 매우 낮기 때문입니다.단, 잘못 기술된 문자 집합 검출 루틴에서는 신뢰성 높은 UTF-8 테스트가 최초로 실행되지 않으며 UTF-8이 다른 부호화라고 판단될 수 있습니다.예를 들어 독일 도시 München의 이름을 포함한 UTF-8의 웹사이트는 테스트 전에 ISO-8859 부호화라고 판정된 코드 때문에 Mchennchen으로 표시되는 것이 일반적이었다.

UTF-16은 데이터를 16비트 워드로 분할할 때 검출해야 할 줄 바꿈(U+000A)과 공백(U+0020)의 수가 많고 짝수 또는 홀수 위치에서 NUL 바이트의 수가 많기 때문에 검출에 매우 신뢰성이 있습니다.텍스트가 유효한 UTF-16인지 테스트에 의존하여 공통 문자를 확인해야 합니다.UTF-16에서 할당된 Unicode 문자의 모든 바이트가 중국어 UTF-16LE로 인식되기 때문에 Windows 운영시스템은 ASCII에서 "Bush hidded the facts"라는 문구를 잘못 검출합니다.

ISO-8859 인코딩이 혼재된 환경에서는 특히 유럽에서 Charset 검출이 불안정합니다.이것들은 ASCII와 하위 절반의 오버랩을 공유하는 밀접하게 관련된8비트 부호화이며 바이트 배열은 모두 유효합니다.이러한 인코딩을 구별하는 기술적인 방법은 없으며, 이러한 인코딩을 인식하는 것은 문자 빈도나 철자 등의 언어 특징을 식별하는 데 달려 있습니다.

경험적 접근 탐지는 신뢰할 수 없으므로 올바른 인코딩으로 데이터 세트에 레이블을 올바르게 지정하는 것이 좋습니다.HTTP가 웹을 통해 제공하는 HTML 문서는 Content-Type: 헤더를 사용하여 아웃 오브 밴드로 인코딩해야 합니다.

내용 유형: 텍스트/메시지;charset=UTF-8

디스크상의 파일로 편집되는 것과 같은 고립된 HTML 문서는 파일내의 메타 태그에 의해서, 이러한 헤더를 의미할 수 있습니다.

< >메타 http-equiv="콘텐츠 유형" 내용="문자/문자;문자 집합=UTF-8인치 >

또는 HTML5의^[1] 새로운 메타 타입을 사용하여

< >메타 문자 집합='utf-8' >

문서가 유니코드인 경우, 일부 UTF 인코딩은 포함된 BOM(Initial Byte Order Mark)으로 문서에 레이블을 명시적으로 지정합니다.

「」를 참조해 주세요.

Unicode의 International Components - 문자 집합 탐지를 수행할 수 있는 라이브러리입니다.
언어 식별
콘텐츠 스니핑
브라우저 스니핑은 웹 브라우저에 콘텐츠를 제공하기 전에 웹 브라우저의 기능을 결정하기 위한 유사한 경험적 기술입니다.

레퍼런스

^ "4.2.5 The meta element". W3C.

외부 링크

[1] "4.2.5 The meta element". W3C.

[1]

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아어 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아어 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어 및 덴마크어 스웨덴어 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호. 텔레텍스트 TI 계산기 TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX 스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

Search

Charset 검출

네임스페이스

더

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

Charset 검출

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.