UTF-1

UTF-1
MIME / IANA	ISO-10646-UTF-1
언어	국제
현재 상태	잘 알려지지 않은, 주로 역사적 관심사.
분류	유니코드 변환 형식, 확장 ASCII, 변수 폭 인코딩
확장하다	US-ASCII
변환/인코딩	ISO 10646(유니코드)
성공자	UTF-8

v t

UTF-1은 ISO 10646/유니코드를 바이트 스트림으로 변환하는 방법이다.설계는 자체 동기화를 제공하지 않아 서브스트링 검색과 오류 복구가 어렵다.멀티바이트 인코딩에 ASCII 인쇄 문자를 재사용하여 일부 용도에 적합하지 않다(예: Unix 파일 이름에는 슬래시에 사용되는 바이트 값이 포함될 수 없음).또한 UTF-1은 2의 힘이 아닌 숫자로 분할과 곱셈을 사용하기 때문에 인코딩이나 디코딩이 느리다.이러한 문제들 때문에, 받아들여지지 않았고, UTF-8로 빠르게 대체되었다.

디자인

UTF-8과 마찬가지로 UTF-1은 ASCII와 역호환되는 가변 폭 인코딩이다.모든 유니코드 포인트는 단일 바이트 또는 2, 3 또는 5바이트의 시퀀스로 표현된다.ASCII는 단일 바이트 인코딩을 통해 지원되며, UTF-8과는 달리 비 ASC도 포함된다.II 코드 포인트U+0080을 통해U+009F.

UTF-1은 C0 및 C1 제어 코드나 멀티바이트 인코딩에서 공간 문자를 사용하지 않는다. 0-0x20 또는 0x7F-0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다.66개의 보호 문자를 가진 이 디자인은 ISO 2022 호환성을 시도했다.

UTF-1은 "modulo 190" 산술(256 - 66 = 190)을 사용한다.비교를 위해 UTF-8은 128개의 ASCII 문자를 모두 보호하며 이를 위해 1비트가 필요하고, 이를 자체 동기화하는 2비트가 필요하여 "modulo 64" 산술(8 - 2 = 6⁶; 2 = 64)이 된다.BOCU-1은 MIME 호환성에 필요한 최소 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 0x20)만 보호하여 "modulo 243" 산술(256 - 13 = 243)을 생성한다.

코드 포인트	UTF-8	UTF-1
U+007F	7층	7층
U+0080	C2 80	80
U+009F	C2 9층	9층
U+00A0	C2 A0	A0 A0
U+00BF	C2 BF	A0 BF
U+00C0	C3 80	A0 C0
U+00FF	C3 BF	A0 FF
U+0100	C4 80	A1 21
U+015D	C5 9D	A1 7E
U+015E	C5 9E	A1 A0
U+01BD	C6 BD	A1 FF
U+01BE	C6 BE	A2 21
U+07FF	DF BF	AA 72
U+0800	E0 A0 80	AA 73
U+0FFFF	E0 BF BF	B5 48
U+1000	E1 80 80	B5 49
U+4015	E4 80 95	F5 FF
U+4016	E4 80 96	F6 21
U+D7FF	ED 9F BF	F7 2F C3
U+E000	EE 80 80	F7 3A 79
U+F8FF	EF A3 BF	F7 5C 3C
U+FDD0	EF B7 90	F7 62 BA
U+FDEF	EF B7 AF	F7 62 D9
U+FEFF	EF BB BF	F7 64 4C
U+FFFD	EF BF BD	서기 65년 F7
U+FFE	EF BF BE	F7 65 AE
U+FFFF	EF BF BF	F7 65 AF
U+10000	F0 90 80 80	F7 65 B0
U+38E2D	F0 B8 B8 AD	FB FF
U+38E2E	F0 B8 B8 AE	FC 21 21 21
U+FFFFFF	F3 BF BF	FC 21 37 B2 7A
U+100000	F4 80 80 80	FC 21 37 B2 7B
U+10FFFF	F4 8F BF	FC 21 39 6E 6C
U+7FFFFFFFF	FD BF BF BF BF	FD BD 2B B9 40

현대 유니코드는 U+10FFF로 끝나지만 UTF-1과 UTF-8 모두 원래의 유니버설 문자 집합(UCS-4)의 31비트를 완전히 인코딩하도록 설계되었으며, 이 표의 마지막 항목은 이 원래의 최종 코드 포인트를 보여준다.

참고 항목

참조

"The Unicode Standard: Appendix F FSS-UTF" (PDF) (PDF, 768 KiB). Version 1.1. Unicode, Inc.
ISO/IEC JTC 1/SC2/WG2 (1993-01-21). "ISO IR 178: UCS Transformation Format One (UTF-1)" (PDF) (PDF, 256 KiB) (1 ed.). Registration number 178.
Czyborra, Roman (1998-11-30). "Unicode Transformation Formats: UTF-8 & Co". Archived from the original on 2016-06-07. Retrieved 2016-06-07.
F. Yergeau, F. (November 2003). "UTF-8, a transformation format of ISO 10646". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)

유니코드

코드 포인트

성격.

특수목적	BOM 그래핀 결합기 왼쪽에서 오른쪽으로 표시 / 오른쪽에서 왼쪽으로 표시 소프트 하이픈 변형형태 워드 조이너 0폭 조인자 0폭 비조인자 제로폭 공간
목록	성격. CJK 통합 한자 결합 캐릭터 중복 문자 숫자 스크립트 공간 기호 반폭과 전폭 별칭 이름 및 약어 공백 문자

처리.

알고리즘	양방향 텍스트 데이터 정렬 ISO/IEC 14651 등가성 변동 순서 국제 한자 핵심
비교	보쿠-1 CESU-8 푸니코드 SCSU UTF-1 UTF-7 UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-EBCDIC

한 쌍에
암호 포인트

사용법

관련 항목

유니코드의 스크립트 및 기호
공통 및 상속된 스크립트	결합 마크 분음 부호 구두점 공간 숫자
모던스크립트	아들람 아랍어 아르메니아어 발리네즈 바뭄 바탁 벵골어 보포모포 점자 부히드 버마어 캐나다 원주민 차크마 참 체로키 CJK 통합 한자(한) 키릴의 데세레트 데바나가리 지에즈 조지아 주 그리스어 구자라티 군잘라 곤디 구르무키 한글 하니피 로힝야 한자 하누누우 히브리어 히라가나 자바어 간지 칸나다 가타카나 리카야 크메르 라오 라틴어 렙차 임부 리수 (프레이저) 론타라 말라얄람 곤디 마사람 키카쿠이 멘데 메데페이드린 먀오 (폴라드) 몽골어 음루 은코 뉴타이루 누슈 시 니야켄그 푸아추에 흐몽 오디아 올치키 오사게 오스만야 파하흐몽 파우신하우 프라칼리트 (뉴아) 란자나 레장 사마리아인 사우라슈트라 샤비아누스 신할라 소랑솜펑 순다네어 시리아어 타그반와 타이레 타이탐 타이베트 타밀 탕사 텔루구 타아나 태국어 티베트어 티피나흐 티르후타 토토 바이 완초 와랑씨티 이
고대 및 역사적 대본.	아옴 아나톨리아 상형문자 고대 북아일랜드 에베스탄 바사 바 바이크슈키 브라흐메 카리안 카프카스 알바니아인 콥트어 쿠네오페어 키프로스 사이프로미노안 다이브아쿠루 도그라 이집트 상형문자 엘바산 엘리마어 글래골리틱스 고딕어 그란타 해트란 제국 아람어 비문알 팔라비 비문 파르티아누스 카이티 하로스티 거란의 작은 문자 코지키 후다와디 흐레즈미안 (초라스미안) 선형 A 선형 B 리치안 리디아누스 마하자니 마카사르 만도어 마니차이안 마르첸 메테이 마예크 메로이틱 모디 물타니 나바타이안 난디나가리 오함 옛 헝가리인 올드 이탤릭체 올드 페미크 고대 페르시아의 구레나룻 올드 소그디안 올드 투르크어 늙은 위구르 팔미렌 ʼ파그스파 페니키아 사람 팔터 팔라비 룬어 샤라다 시드덤 소그디안 남아프리카 공화국 소엄보 실헤티 나기리 타갈로그어(Baybayin 타크리 탕구트 우가리아어 비츠쿠키 예지디 자나바자르 광장
논설 스크립트	두포판 서명
기호, 이모티콘	문화적, 정치적, 종교적 상징 통화 사진 제어 수학 연산자 및 기호 과목별 리스트 음성 기호(IPA 포함) 에모지
범주:유니코드 범주:유니코드 블록

v t 캐릭터 인코딩
초기 통신	전신코드 바늘 모르스 비라틴어 와분/카나 중국어 키릴의 한국인입니다 바우도트와 머레이 필다타 ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다
ISO/IEC 8859	승인된 부품 -1 (서유럽) -2(중부 유럽) -3 (말테세/에스페란토) -4(북유럽) -5(키릴 문자) -6 (아랍어) -7 (그리스어) -8 (히브루) -9 (터키어) -10(Nordic) -11 (타이) -13(발틱) -14(셀틱) -15(신서유럽) -16(로마어) 버려진 부품 -12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴어 에스토니아어 우크라이나 키릴 문자
서지학 용법	MARC-8 안셀 CCCII/EACCII ISO 5426 5426-2 5427 5428 6438 6862
국가표준	암SCIII 브라SCIII CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12052 GB 18030 HKCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 파스씨아 시프트 JIS SI 960 TIS-620 TSCII VISCII VSCII YASCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 Unix 코드 / EUC
Mac OS 코드 페이지 ("실제")	아르메니아어 아랍어 바렌츠 키릴어 켈트족 중유럽어 크로아티아어 키릴의 데바나가리 파르시 (페르시아어) 글꼴 X(커밋) 게일어 조지아 주 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 말타세/에스페란토 오함 로만 루마니아어 사미 터키어 투르크 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 ABICOMP CS 인디케이터 CSX 인디케이터 CSX+ 인디케이터 CWI-2 이란 시스템 카메니키슈 마조비아 MIK
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936(GBK) 950 1169 확장 라틴어-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴 + 프랑스어 키릴 + 독일어 폴리토닉 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC 디코이
DEC 단자(VTx)	다국적(MCS) 국가 교체(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어와 덴마크어 스웨덴의 노르웨이 및 덴마크어(대체) 8비트 그리스어 8비트 터키어 SI 960 히브리어 특수 그래픽스 기술(TCS)
플랫폼별	1057 도토리 어도비 스탠더드 어도비 라틴어 1 암스트라드 CPC 애플 II AT ASCII 아타리 ST 빅스 카시오 계산기 CDC 콤푸콜로 2세 CP/M+ DEC RADIX 50 DEC MCS/NRCS DG 인터내셔널 필다타 GEM GSM 03.38 HP 로마인 HP 초점 HP RPL 스쿼제 릭스 LMBCS MSX NEC APC NEXT 펫시씨아 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호 텔레텍스트 TI 계산기 TRS-80 벤투라 인터내셔널 위시씨아 XCCS ZX80 ZX81 ZX 스펙트럼
유니코드 / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 보쿠-1 CESU-8 SCSU TACE16 유니코드 인코딩 비교
TeX형식설정시스템	코르크 LY1 OML OMS OT1
기타코드페이지	ABICOMP ASMO 449 빅5 APL 기호의 디지털 인코딩 ISO-IR-68 아리브 성-B24 HZ IEC-P27-1 이니스 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 시씨아 스탠퍼드/ITS 트론 통일 한글 코드
제어 문자	모스 프로시그스 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 항목	CCSID HTML의 문자 인코딩 문자 집합 탐지 한통일 하드웨어 코드 페이지 MICR 코드 모히바케 가변 폭 인코딩
문자 집합

Search

네임스페이스

더

디자인

참고 항목

참조