호모글리프

Homoglyph
호모글리프(Homoglyphs Latin Small Letter A, Unicode 0061)와 Kyrilic Small A(Unicode 0430)가 겹쳐졌다. 두 캐릭터 모두 헬베티카 LT Std를 배경으로 한다.

맞춤법타이포그래피에서 호모글라이프는 동일하거나 매우 유사하게 보이는 형상을 가진 둘 이상의 문자, 문자 또는 글립자 중 하나이다. 이 지정은 이러한 속성을 공유하는 문자 순서에도 적용된다.

시노글리프(synoglyph)는 다르게 보이지만 같은 것을 의미하는 글리프다. 시노글라이프는 비공식적으로 디스플레이 변형으로도 알려져 있다. 호모그래프라는 용어는 때때로 호모글라이프(homoglyph)와 동의어로 쓰이기도 하지만, 일반적인 언어적 의미에서는 호모그래프는 철자는 같지만 의미는 다른 단어들로, 문자는 아닌 단어의 속성을 가지고 있다.

2008년에 유니코드 컨소시엄은 단일 스크립트에서 모두 문자의 시각적 유사성, 그리고 다른 스크립트에서 문자 간의 유사성에서 도출된 다양한 이슈에 대한 기술 보고서 #36을[1] 발행했다.

역사적 관점에서 동음이의어 혼동의 예는 후자의 문자를 포함하지 않는 서체에서 오래된 영어 텍스트를 설정할 때 'y'를 사용하여 'y'를 나타내는 데서 비롯된다. 그것은 현대에 예 올드 과 같은 현상으로 이어져 이전에 예 /지ː/라는 단어가 쓰여진 단어라는 것을 잘못 암시하고 있다. 자세한 내용은 가시를 참조하십시오.

호모글리픽 기호의 예로는 (a) diaereis와 umlaut(둘 다 점 한 쌍이지만 같은 코드 포인트로 인코딩되기는 하지만 다른 의미를 가진 것)과 (b) 하이픈마이너스 부호(둘 다 짧은 수평 획이지만, 같은 코드 포인트로 인코딩되는 경우가 많지만 다른 의미를 가진 것)가 있다. 숫자문자 중에서 숫자 1과 소문자 l은 항상 별도로 인코딩되지만 많은 글꼴에서 매우 유사한 글리프가 제공되고 숫자 0과 대문자 O는 항상 별도로 인코딩되지만 많은 글꼴에서는 매우 유사한 글리프가 제공된다. 사실상 모든 호모글리픽 한 쌍의 문자는 명확하게 구별할 수 있는 글리프와 별도의 코드 포인트로 그래픽으로 구별될 수 있지만, 이것이 항상 이루어지는 것은 아니다. 1/el과 0/oh 호모글리프(homoglyph)를 확실하게 구분하지 않는 서체문맥 없이 문자를 항상 구별할 수 없는 공식, URL, 소스 코드, ID 및 기타 텍스트 작성에 적합하지 않은 것으로 간주된다. 예를 들어, 잘린 영점을 사용하여 글리프를 구별하는 글꼴은 이러한 용도에 선호된다.

움라우트와 디아레시스

기계식 타자기의 시대에 이것들은 같은 키로 타이핑되었는데, 이중 반전 쉼표에도 사용되었다. 그러나 엄라우트는 특별히 두 개의 점이 아닌 한 쌍의 짧은 수직선으로 시작되었다(서틀린 참조). 우연히 알바니아어 문자 E 위의 두 점은 디아레시스로 설명되지만 디아레시스의 기능을 충족시키지 못한다. [2]

0과 O; 1, L과 I

오늘날 사용되고 있는 두 개의 공통적이고 중요한 호모글리프 집합은 숫자 0과 대문자 O(즉, 0과 O), 숫자 1, 소문자 L과 대문자 i(즉 1, l과 I)이다. 기계식 타자기의 초기에는 이 글립스들 사이에 시각적인 차이가 거의 또는 전혀 없었으며, 타이피스트들은 그것들을 키보딩 단축키로서 상호 교환적으로 다루었다. 실제로 대부분의 키보드에는 숫자 '1'에 해당하는 키도 없어 사용자가 대신 'l'자를 입력해야 했고, 0을 생략한 키보드도 있었다. 이러한 타이피스트들이 1970년대와 1980년대에 컴퓨터 키보드 조작자로 전환되면서, 그들의 오래된 키보드 사용 습관은 그들과 함께 계속되었고, 때때로 혼란의 원인이 되었다.

대부분의 현재 형태의 디자인은 이러한 호모글리프들을 조심스럽게 구별하는데, 대개 숫자 0을 더 좁게 그리고 눈에 띄는 세리프가 있는 숫자 1을 그려서 구별한다. 초기 컴퓨터 출력물은 더 나아가 0을 슬래시나 점으로 표시하였고, 이로 인해 스칸디나비아 문자 ø와 그리스 문자 Ⅱ(phi)가 관련된 새로운 갈등이 발생하였다. 이러한 캐릭터들을 구별하기 위해 캐릭터 타입을 재설계하는 것은 혼란을 줄인다는 것을 의미한다. 주어진 관찰자에게 서로 다른 두 문자가 동일하게 나타나는 정도를 "시각적 유사성"[3]이라고 한다.

다중 문자 호모글리프

스테판 스츠초트코프스키가 비석의 아에판 스초트코프스키를 닮았다.

rnm과 비슷해 보이고, cl이 d와 유사해 보이고, vvw와 유사해 보이는 등의 다른 문자의 조합도 있다.

어떤 좁은 간격의 글꼴(Tahoma 등)에서는 글자 c를 j, l 또는 i와 같은 글자 옆에 배치하면 cj cl ci(g d a)와 같은 호모글리프(homoglyph)가 생성된다.

어떤 등장인물이 서로 옆에 배치되어 한눈에 함께 볼 수 있을 때, 그것들은 관련이 없는 또 다른 등장인물의 시각적 인상을 준다. 보다 정확한 표현방법은 일부 타이포그래픽 결합체가 독립형 글리프와 유사하게 보일 수 있다는 것이다. 예를 들어, fi 묶음(fi)은 일부 서체나 글꼴에서 A와 유사하게 보일 수 있다. 이러한 혼란의 가능성은 때때로 끈의 사용에 반대하는 주장이다.[citation needed]

유니코드 호모글리프

가장 두드러진 세 개의 유럽 문자(그리스어, 키릴어, 라틴어)는 별도의 코드 포인트로 유니코드로 인코딩되는 많은 문자 형식을 공유한다.

유니코드 문자 집합에는 "confusables"[1]로 알려진 많은 강력한 동음이의어 문자가 포함되어 있다. 이러한 것들은 다양한 상황에서 보안 위험을 나타내며(UTR#36에서 추가됨)[4] 최근에는 국제화된 도메인 이름과 관련하여 특별히 주의를 환기시키고 있다. 한 문자를 호모글라이프(homoglyph)로 대체하여 의도적으로 도메인 이름을 스푸핑하여 피싱에 악용될 수 있는 첫 번째와 쉽게 구별할 수 없는 두 번째 도메인 이름을 만들 수 있다(본조 IDN 호모그래프 공격 참조). 많은 글꼴에서 그리스 문자 'α'와 키릴 문자 'ARSA'와 라틴 문자 'A'는 시각적으로 동일하며, 라틴 문자 'a'와 키릴 문자 'vas'(동일하게 라틴 문자 'aBe'에도 적용할 수 있다)도 동일하다.HKopcTxy"와 키릴 문자 "аВеНКорсТху"). 도메인 이름은 이들 양식 중 하나를 별도의 등록된 이름으로 대체함으로써 간단히 스푸핑될 수 있다. 또한 동일한 스크립트 내에 'i'(급성 발음이 있는 경우)와 'i', EE(E-acute)와 Ⅱ(위쪽의 E-dot)와 EE(E-grave), Ⅱ(급성 발음이 있는 경우)와 case(급성 발음이 있는 경우 L하위)와 같은 근호모글리프(급성 발음이 있는 경우)의 예도 많다. 이 특정 보안 문제를 논의할 때, 유사한 문자의 두 시퀀스를 '호모글리프 쌍'으로 받아들일 수 있는 잠재력이나, 그 시퀀스가 단어인 것으로 명백하게 보이는 경우 '의사-호모그래프'(이 용어들 자체가 다른 맥락에서 혼란을 야기할 수 있다는 것을 다시 한 번 알려줌)로 평가할 수 있다. 중국어에서는 많은 간체 한자가 해당 전통 한자의 호모글라이프다.

동음이의어 혼동의 위험을 최소화하기 위한 TLD 등록국과 웹 브라우저 설계자들의 노력이 진행 중이다. 일반적으로, 이것은 여러 언어의 문자 집합을 혼합하는 이름을 금지함으로써 달성된다(toys-THW-us.org, 키릴 문자 를 사용하는 것은 무효지만 wikipedia.dllwikipedia.org은 여전히 다른 웹사이트로 존재한다). 캐나다의 .ca 등록부는 오직 분음부에서만 다른 이름들이 동일한 소유자를 갖도록 요구함으로써 한 단계 더 나아간다. 같은 등기사와.[5] 한자의 취급방법은 다양하다. 한 변종의 .org.info 등록에서는 다른 한 변종은 아무나 사용할 수 없게 하는 반면, .biz에서는 동일한 이름의 전통적인 버전과 단순화된 버전이 둘 다 동일한 도메인 네임 서버를 가리키는 2-도메인 번들로 전달된다.

관련 문서는 개발자의 웹 사이트와 인터넷 주소 관리 기구가 제공하는 IDN[6] 포럼에서 모두 찾아볼 수 있다.

표준화

모든 종류의 호모글라이프는 '이중 표준화'라는 과정을 통해 검출할 수 있다.[3] 이 프로세스의 첫 번째 단계는 호모글리프 집합, 즉 주어진 관찰자에게 동일하게 나타나는 문자를 식별하는 것이다. 여기서 호모글리프 집합을 나타내는 단일 토큰이 지정된다. 이 토큰은 캐논이라고 불린다. 다음 단계는 본문의 각 문자를 표준화라는 프로세스에서 해당 캐논으로 변환하는 것이다. 두 개의 텍스트 런의 캐논이 같지만 원본 텍스트가 다르면 텍스트에 호모글라이프가 존재한다.

참고 항목

참조

  1. ^ Jump up to: a b "UTR #36: Unicode Security Considerations". www.unicode.org.
  2. ^ 이것들을 호모글리프라고 묘사하는 것은 의심스럽다. 왜냐하면 글리프가 이 두 역할을 모두 수행할 수 있는 언어는 아마도 없을 것이기 때문이다. 언어마다 다른 역할을 하기 때문에 호모글리프처럼 심각한 억양을 묘사하는 것도 타당할 것이다.
  3. ^ Jump up to: a b Helfrich, James; Neff, Rick (2012). Dual canonicalization: An answer to the homograph attack. eCrime Researchers Summit (eCrime), 2012. doi:10.1109/eCrime.2012.6489517.
  4. ^ "UTR #36: Unicode Security Considerations". unicode.org.
  5. ^ "Archived copy". Archived from the original on 2013-03-28. Retrieved 2013-03-29.CS1 maint: 제목으로 보관된 복사본(링크)
  6. ^ "ICANN Email Archives: [idn-guidelines]". forum.icann.org.

외부 링크