토폰어 해상도

Toponym resolution

지리정보시스템에서 토폰어 해상도토폰어(toponym)와 같은 장소의 모호하지 않은 공간 발자국 사이의 관계 과정이다.[1]

같은 지리적 명칭은 역사적으로 이주한 정착민들에 의해 그들의 새로운 집을 나타내기 위해 사용되어 왔으며, 장소 이름의 참조적 모호성으로 이어졌다. 때로는 원래의 이름이 수정되기도 한다(York vs. New York). 많은 경우 명칭은 수정 없이 재사용된다("영국 보스턴 대 미국 매사추세츠주 보스턴"). 문서에서 발생하는 장소 이름 또는 토포니움 집합을 해당 위도/경도 좌표, 다각형 또는 기타 공간 공간에 매핑하려면 모호한 단계가 필요하다. 토폰어 분해능 알고리즘은 토폰어로부터 공간 풋프린트까지의 매핑을 수행하는 자동 방법이다.

대부분의 토피니엄 결의안은 이름과 공간 발자국 사이의 가능한 매핑에 대한 게시를 채택한다.[2]

분해능 프로세스

정의의 "동일한 장소의 모호하지 않은 공간 발자국"[1]은 사실 모호하지 않을 수도 있고, "그렇게 모호하지 않을 수도 있다." 해결 과정이 발생할 수 있는 불확실성의 몇 가지 다른 맥락들이 있다.

  • 증거가 지리적이고 불확실성이 없는 경우. 예를 들어, 사진 촬영 장소의 국가명을 얻기 위해, 장소가 국경으로부터 1000km 떨어진 곳에서 GPS 위치(오차 10m)인 경우.
  • 증거가 지리적이지만 상당한 불확실성을 가지고 있을 때. GPS 오차가 100m이고 그 장소가 국경의 100m에서 가깝다는 비슷한 시나리오를 상상해보라.
  • 증거가 텍스트로만 되어 있을 때. 내레이터가 휴가에서 돌아온 후 여행에 대해 이야기하는 여행자가 있는 편지를 상상해 보라. 그 증거는 오직 텍스트뿐입니다, 서술에서.
  • 혼합된 증거 출처: 둘 이상의 증거, 아무도 정확하지 않다.

지리적 증거로부터

토폰어 분해능은 때때로 이름에서 약어로의 간단한 변환으로, 약어가 표준 지오코드로 사용될 때 특히 그러하다. 예를 들어, 공식 국가명 아프가니스탄의 ISO 국가 코드 변환, AF.

미디어와 메타데이터에 주석을 달 때, 지도와 지리적 증거(예: GPS)를 이용한 변환은 토포니를 얻기 위한 가장 일반적인 접근법 또는 토포니를 나타내는 지오코드를 얻는 방법이다.

텍스트 증거로부터

일반적으로 구조화된 데이터베이스 기록에 저장되는 우편 주소의 지오코딩과는 대조적으로, 토폰어 해상도는 일반적으로 대형 비정형 텍스트 문서 모음에서 언급된 위치를 지도와 연결하기 위해 적용된다.

공간 발자국을 이용하여 미디어(예: 이미지, 텍스트, 비디오)에 주석을 붙이는 과정을 지오태깅이라고 한다. 텍스트 문서를 자동으로 지오태그하기 위해, 일반적으로 다음 단계를 수행한다: 토폰어 인식(즉, 지리적 위치에 대한 텍스트 참조를 식별) 및 토폰어 해상도(즉, 각 지리적 참조에 적합한 위치 해석 선택).

토폰어 인식은 단지 위치 실체를 도출하는 데 목적이 있는 경우 이름-엔티 인식의 특별한 사례로 간주할 수 있다. 그러나 이름-엔티 인식 결과는 수작업으로 만든 규칙이나 통계 규칙을 사용하여 더욱 개선될 수 있다.[3]

위치 해석을 얻기 위해 해상도 모델은 GeoNamesOpenStreetMap과 같은 가제트(즉, 위치의 거대한 데이터베이스)를 활용하는 경향이 있다. 토플리엄스를 해결하기 위한 순진한 접근법은 후보 목록에서 가장 인구가 많은 해석을 선택하는 것이다. 예를 들어, 다음 발췌문에서:

브렉시트 이후 영국 런던에서 일하는 토론토 남성, '미래 불확실성'

CBC

토론토런던은 각각 캐나다와 영국에 위치한 그들의 가장 일반적인 해석을 언급하고 있기 때문에 순진한 접근은 가능할 것으로 보인다. 반면에 뉴스 기사의 다음 부분에서는:

2025년까지 토론토와 런던을 잇는 고속철도

CBC

이 접근법은 런던캐나다 온타리오에 위치한 도시라고 정확히 표현하지 못한다. 따라서, 가장 높은 모집단을 선택하는 것은 지역적인 맥락에서 토플럼에 대해 잘 작동하지 않는다.

또한, 토피니엄 결의안은 일반적으로 메타니를 다루지 않는다. 그럼에도 불구하고, 분해능 기법은 인식 단계에서 토폰어로서 식별되는 한 여전히 메타니엄 참조를 모호하게 할 수 있다. 예를 들어, 다음 발췌문에서:

캐나다는 대마초 음주운전도 감안하여 운전법을 조정하고 있다.

캐나다는 메타미(metonymy)를 나타내며 "캐나다 정부"를 가리킨다. 단, 일반적인 이름-목적 인식자에 의해 위치로서 식별될 수 있으므로, 토폰 결정자는 이를 모호하게 할 수 있다.

접근

토폰어 분해능 방법은 일반적으로 감독되는 모델과 감독되지 않은 모델로 나눌 수 있다. 감독되는 방법은 일반적으로 모델에서 상황별 및 비일관적 특성을 먼저 추출한 다음 분류자가 라벨이 표시된 데이터 집합에 대해 교육되는 학습 작업으로 문제를 제기한다. 적응형 모델은[4] 토플럼을 해결하는 데 제안된 대표적인 모델 중 하나이다. 토폰임의 각 해석에 대해 모델은 다른 해석과의 지리적 근접성 및 형제 관계에 기초하여 상황에 맞는 형상을 도출한다. 모델은 컨텍스트 관련 특징 외에도 모집단 및 청중 위치를 포함한 컨텍스트 없는 특징으로부터 이익을 얻는다. 반면에, 감독되지 않은 모델들은 주석된 데이터를 보증하지 않는다. 주석 처리된 말뭉치가 충분히 크지 않을 경우 감독된 모델보다 우수하며 감독된 모델이 잘 일반화되지 않을 수 있다.[5]

감독되지 않은 모델들은 문서에 언급된 토폰의 상호작용을 더 잘 이용하는 경향이 있다. 컨텍스트-히에라치 퓨전[5] 모델은 문서의 지리적 범위를 추정하며 주변 장소 이름 간의 연결을 증거로 활용하여 토플리움을 해결한다. 이 모델은 문제를 분쟁 없는 세트 커버 문제에 매핑함으로써 일관성 있고 강력한 해상도를 달성한다.

게다가, 위키피디아의 채택과 지식 기반은 토피니엄 결의에 효과적인 것으로 나타났다. 토포클러스터는[6] 위치의 위키피디아 페이지를 통합하여 단어의 지리적 감각을 모델링하고 본문 내 단어의 공간적 감각을 이용하여 토포니엄을 구분한다.

지파르싱

지오파싱은 장소의 자유 텍스트 기술(예: "잘랄라바드에서 북동쪽으로 20마일")을 위도-경도로 표현되는 지리 좌표와 같은 모호하지 않은 지리 식별자로 변환하는 특별한 토피니엄 해상도 과정이다. 또한 다른 형태의 매체에서 위치 참조를 확인할 수 있다. 예를 들어, 화자가 장소를 언급하는 오디오 콘텐츠. 지리적 좌표를 사용하여 형상을 지리적 정보 시스템에 매핑하고 입력할 수 있다. 비정형 콘텐츠에서 파생된 지리 좌표의 두 가지 주요 용도는 맵에 콘텐츠의 일부를 표시하고 지도를 필터로 사용하여 콘텐츠를 검색하는 것이다.

지오파르싱은 지오코딩을 넘어선다. 지오코딩은 우편 주소와 엄격한 형식의 숫자 좌표와 같은 명확하지 않은 구조화된 위치 참조를 분석한다. 지파르싱은 시리아와 예멘의 마을을 포함한 몇몇 장소의 이름인 "알 함라"와 같은 비정형 담화에서 모호한 언급들을 다루고 있다.

지오파저는 이 과정을 도와주는 소프트웨어 또는 (웹) 서비스다. 몇 가지 예:

  • GEOLocate 자동 지리 회의
  • BioGeomancer – 반자동 지리학 회의
  • GEOnet Names Server – 미국 및 남극 이외의 지역에 대한 GIS 정보를 자유롭게 이용할 수 있으며, NGA(National Geospatial Intelligence Agency)와 미국 BGN(US BGN)이 매월 업데이트
  • GNIS(지리학적 이름 정보 시스템) – 미국 내 약 200만 개의 물리적 특징, 장소 및 랜드마크에 대한 정보를 포함하는 사용 가능한 데이터베이스.
  • CLVIN – CLVIN(Cartographic Location And Areast INdexer)은 상황에 맞는 지리적 개체 해상도를 사용하는 문서 지오태깅 및 지오파싱을 위한 오픈 소스 소프트웨어 패키지다.
  • Geoparser.io – Geoparser.io은 텍스트에 언급된 장소를 식별하고, 이를 모호하게 한 후, 텍스트에서 발견된 장소에 대한 상세한 메타데이터와 함께 GeoJSON을 반환하는 웹 서비스다.
  • 지오코드.xyz – 지오코드.xyz는 텍스트에 언급된 장소 이름과 거리 주소를 모두 식별하는 웹 서비스다.[7]
  • Geoprispy – Geoprispy는 OpenStreetMap 데이터베이스를 사용하여 무료 텍스트 위치 식별 및 해지를 지원하는 무료 Python Geoparsing 라이브러리임
  • Tagbox.ai – Tagbox는 Geoparser API 서비스임

참조

  1. ^ Jump up to: a b DeLozier, Jochen L. (2007). Toponym resolution in text: annotation, evaluation and applications of spatial grounding (PhD). University of Edinburgh. hdl:1842/1849.
  2. ^ Hill, Linda L. (2006). Georeferencing: The geographic associations of information. The MIT Press. ISBN 978-0262083546.
  3. ^ Lieberman, Michael D.; Samet, Hanan (2011). Multifaceted toponym recognition for streaming news (PDF). Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. pp. 843–852. doi:10.1145/2009916.2010029.
  4. ^ Lieberman, Michael D.; Samet, Hanan (2012). Adaptive context features for toponym resolution in streaming news (PDF). Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. pp. 731–740. doi:10.1145/2348283.2348381.
  5. ^ Jump up to: a b Kamalloo, Ehsan; Rafiei, Davood (2018). A Coherent Unsupervised Model for Toponym Resolution. Proceedings of the 2018 World Wide Web Conference. pp. 1287–1296. arXiv:1805.01952. doi:10.1145/3178876.3186027.
  6. ^ DeLozier, Grant; Baldridge, Jason; London, Loretta (2015). Gazetteer-Independent Toponym Resolution Using Geographic Word Profiles. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. pp. 2382–2388.
  7. ^ "Perl Advent Calendar 2016 - A Geo Parser for vast amounts of Text".

참고 항목