정보 검색

Information retrieval

컴퓨팅 및 정보과학에서의 정보검색(IR)은 정보요구에 관련된 정보시스템 자원을 이들 자원의 집합으로부터 취득하는 프로세스입니다.검색은 전체 텍스트 또는 기타 내용 기반 인덱싱을 기반으로 할 수 있습니다.정보 검색은 문서에서 정보를 검색하고 문서 자체를 검색하며 데이터를 설명하는 메타데이터 및 텍스트, 이미지 또는 소리 데이터베이스를 검색하는 과학입니다[1].

자동 정보 검색 시스템은 이른바 정보 과부하를 줄이기 위해 사용됩니다.IR 시스템은 책, 저널 및 기타 문서에 대한 액세스를 제공하는 소프트웨어 시스템입니다. 이러한 문서를 저장하고 관리합니다.웹 검색 엔진은 가장 눈에 띄는 IR 애플리케이션입니다.

개요

사용자가 시스템에 쿼리를 입력하면 정보 검색 프로세스가 시작됩니다.쿼리는 웹 검색 엔진의 검색 문자열과 같은 정보 요구에 대한 공식적인 문장입니다.정보 검색에서 쿼리는 컬렉션 내의 단일 개체를 고유하게 식별하지 않습니다.대신 여러 개체가 쿼리와 일치할 수 있으며 관련성이 다를 수 있습니다.

오브젝트는 콘텐츠 컬렉션 또는 데이터베이스의 정보로 표시되는 엔티티입니다.사용자 쿼리는 데이터베이스 정보와 대조됩니다.그러나 데이터베이스의 기존 SQL 쿼리와 달리 정보 검색에서는 반환된 결과가 쿼리와 일치하거나 일치하지 않을 수 있으므로 일반적으로 결과가 순위가 매겨집니다. 결과 순위는 데이터베이스 [2]검색과 비교하여 정보 검색 검색의 주요 차이입니다.

응용 프로그램에 따라 데이터 객체는 텍스트 문서,[3][4] 이미지, 오디오[5], 마인드 맵 또는 비디오 등이 될 수 있습니다.대부분의 경우 문서 자체는 IR 시스템에 직접 보관 또는 저장되지 않고 대신 문서 대리 또는 메타데이터에 의해 시스템에 표시됩니다.

대부분의 IR 시스템은 데이터베이스의 각 개체가 쿼리와 얼마나 잘 일치하는지 숫자 점수를 계산하고 이 값에 따라 개체의 순위를 매깁니다.다음으로 상위 순위 객체가 사용자에게 표시됩니다.사용자가 쿼리를 [6]구체화하려는 경우 프로세스를 반복할 수 있습니다.

역사

유니백이라는 기계가 있다.긴 강철 테이프의 자석 점 패턴으로 문자와 숫자가 코드화됩니다.이것에 의해, 그 제목 코드 기호 앞에 있는 문서의 텍스트를 기록할 수 있습니다.기계...원하는 방식으로 분당 120단어의 속도로 코드화된 참조를 자동으로 선택하고 타이핑합니다.

--

컴퓨터를 사용하여 관련 정보를 검색한다는 생각은 1945년 [7]Vannevar Bush의 "우리가 생각할 수 있는 대로"라는 기사에서 대중화 되었다.부시는 1920년대와 30년대에 이매뉴얼 골드버그[8]필름에 저장된 문서를 검색한 '통계 기계'에 대한 특허에서 영감을 얻은 것으로 보인다.정보를 검색하는 컴퓨터의 첫 번째 기술은 1948년 [9]Holmstrom에 의해 설명되었으며, 유니백 컴퓨터의 초기 언급을 상세히 기술하였다.자동 정보 검색 시스템은 1950년대에 도입되었습니다.그 중 하나는 1957년의 로맨틱 코미디 「데스크 세트」에도 등장했습니다.1960년대에 코넬 대학의 Gerard Salton에 의해 최초의 대규모 정보 검색 연구 그룹이 결성되었습니다.1970년대까지 크랜필드 컬렉션(수천 개의 문서)[7]과 같은 작은 텍스트 말뭉치에서 여러 가지 다른 검색 기법이 잘 작동하는 것으로 나타났습니다.록히드 대화상자 시스템과 같은 대규모 검색 시스템은 1970년대 초에 사용되었습니다.

1992년 미국 국방부는 국립표준기술연구소(NIST)와 함께 TIPSTER 텍스트 프로그램의 일부로 TRC(Text Retrieval Conference)를 공동 주최했다.그 목적은 방대한 텍스트 컬렉션에서 텍스트 검색 방법론의 평가에 필요한 인프라를 제공함으로써 정보 검색 커뮤니티를 조사하는 것이었다.이것은 거대한 코퍼스로 확장되는 방법에 대한 연구를 촉진했다.웹 검색 엔진의 도입은 매우 큰 규모의 검색 시스템의 필요성을 더욱 증가시켰다.

적용들

정보 검색 기술을 사용하는 영역은 다음과 같습니다(각 카테고리 내에서 항목은 알파벳 순으로 표시됩니다).

일반 응용 프로그램

도메인 고유의 응용 프로그램

기타 검색 방법

정보 검색 기술을 사용하는 방법/기술은 다음과 같습니다.

모델 타입

IR 모델 분류(독일어 번역, 원본 출처 도미니크 쿠롭카).

IR전략에 의해 관련 문서를 효과적으로 검색하기 위해 문서는 일반적으로 적절한 표현으로 변환됩니다.각 검색 전략은 문서 표현을 위해 특정 모델을 통합합니다.오른쪽 그림은 몇 가지 일반적인 모델의 관계를 보여줍니다.그림에서 모형은 수학적 기초와 모델의 속성이라는 두 가지 차원에 따라 분류됩니다.

첫 번째 차원: 수학적 기초

두 번째 치수: 모델의 속성

  • 용어 상호의존성이 없는 모형은 서로 다른 용어/단어를 독립적인 것으로 취급합니다.이 사실은 보통 벡터 공간 모델에서 용어 벡터의 직교성 가정에 의해 표현되거나, 확률론적 모델에서 용어 변수에 대한 독립성 가정에 의해 표현된다.
  • 내재적인 용어 상호의존성을 갖는 모형은 용어들 사이의 상호의존성을 표현할 수 있게 한다.그러나 두 용어 사이의 상호의존성의 정도는 모형 자체에 의해 정의된다.이는 일반적으로 전체 문서에서 이러한 용어의 공존에서 직접 또는 간접적으로 도출된다(예: 치수 감소).
  • 초월적인 용어 상호의존성을 갖는 모형은 용어들 사이의 상호의존성을 표현할 수 있게 하지만, 두 용어들 사이의 상호의존성이 어떻게 정의되는지는 주장하지 않는다.이들은 두 용어 간의 상호의존 정도를 외부 소스에 의존합니다(예를 들어 인간 알고리즘이나 정교한 알고리즘).

퍼포먼스 및 정확성 평가

'정보검색시스템 평가'는 이용자의 정보요구를 얼마나 잘 충족시키는지 평가하는 과정이다.일반적으로 측정은 검색할 문서 집합과 검색 쿼리를 고려합니다.Boolean[clarification needed] 검색 또는 top-k 검색을 위해 설계된 기존 평가 지표에는 정밀도와 호출이 포함됩니다.모든 척도는 관련성의 실측 개념을 가정한다. 즉, 모든 문서는 특정 쿼리와 관련이 있거나 관련이 없는 것으로 알려져 있다.실제로는 쿼리의 위치가 잘못되어 관련성이 다를 수 있습니다.

타임라인

  • 1900년대 이전
    1801: Joseph Marie Jacquard는 일련의 조작을 제어하기 위해 펀치 카드를 사용한 최초의 기계인 Jacquard 직기를 발명했습니다.
    1880년대: Herman Hollerith는 펀치 카드를 기계 판독 매체로 사용하여 전자 기계식 데이터 태블레이터를 발명했습니다.
    1890년 미국 인구 조사 데이터를 처리하는 데 사용되는 1890 Hollerith 카드, 키 펀치 및 탭.
  • 1920~1960년대
    이매뉴얼 골드버그는 마이크로필름 문서 롤의 메타데이터를 검색하기 위해 광전 셀과 패턴 인식을 사용한 문서 검색 엔진인 "통계 기계"에 대한 특허를 제출했습니다.
  • 1940~1950년대
    1940년대 후반:미군은 독일군으로부터 포착된 전시 과학 연구 문서를 색인화하고 회수하는 문제에 직면했다.
    1945년: 바네바 부시의 As We May Think가 Atlantic Month에 실렸다.
    1947년: Hans Peter Luhn(1941년부터 IBM의 연구 엔지니어)은 화학 화합물 검색을 위한 기계화된 펀치 카드 기반 시스템을 연구하기 시작했습니다.
    1950년대: 미국에서 소련과의 "과학 격차"에 대한 우려가 커지면서 자금 지원을 장려하고 기계화된 문학 검색 시스템(앨런 켄트 등)유진 가필드의 인용 색인 발명의 배경을 제공했습니다.
    1950: "정보 검색"이라는 용어는 Calvin Moers에 [10]의해 만들어졌습니다.
    1951년:[11] Philip Bagley는 MIT의 석사 논문에서 컴퓨터화된 문서 검색의 초기 실험을 수행했습니다.
    1955년: 앨런 켄트는 케이스 웨스턴 리저브 대학에 입사하여 최종적으로 문서 통신 연구 센터의 부소장이 되었습니다.같은 해 켄트와 동료들은 검색되지 [12]않은 관련 문서의 수를 결정하기 위한 통계 표본 추출 방법을 포함하는 IR 시스템을 평가하기 위한 제안된 "프레임워크"를 상세히 설명하는 논문을 American Documentation에 발표했다.
    1958년: Washington DC 국제과학정보회의는 식별된 문제에 대한 해결책으로 IR 시스템을 검토하였다.참조: 1958년 국제과학정보회의의 계속(미국 워싱턴 DC, 1959년)
    1959년: 한스 피터 렌은 "정보 검색을 위한 문서의 자동 인코딩"을 발행했습니다.
  • 1960년대:
    1960년대 초: Gerard Salton은 Harvard에서 IR 일을 시작했고, 후에 Cornell로 옮겼다.
    1960년: Melvin Earl Maron과 John Lary[13] Khhns는 ACM 7(3) 저널:216-244, 1960년 7월에 "관련성, 확률론적 색인 및 정보 검색에 대하여"를 발표했다.
    1962년:
    • Cyril W. Cleverdon은 IR 시스템 평가 모델을 개발하면서 Cranfield 연구의 초기 발견을 발표했습니다.참조: Cyril W. Cleverdon, "인덱스 시스템의 비교 효율성에 대한 조사 테스트 및 분석에 관한 보고서"크랜필드 항공 컬렉션, 영국 크랜필드, 1962년.
    • Kent는 정보 분석 및 검색(Information Analysis and Retrieval)을 발행했습니다.
    1963년:
    • 와인버그의 보고서 "과학, 정부 그리고 정보"는 "과학 정보의 위기"라는 개념을 완전히 표현했다.그 보고서는 닥터의 이름을 따서 명명되었다.앨빈 와인버그.
    • 조셉 베커와 로버트 M. 헤이스는 정보 검색에 관한 텍스트를 출판했다.베커, 조셉, 헤이스, 로버트 메이요정보 저장검색: 도구, 요소, 이론.뉴욕, 와일리(1963년).
    1964년:
    • Karen Spérck Jones는 Cambridge, Synonymy and Semantic Classification에서 논문을 마치고 IR에 적용되는 컴퓨터 언어학에 대한 연구를 계속했습니다.
    • 국립표준국은 "기계화된 문서화를 위한 통계적 협회 방법"이라는 제목의 심포지엄을 후원했다.G. Salton의 SMART 시스템에 대한 첫 번째 출판 참조를 포함한 여러 매우 중요한 논문.
    10대 중반:
    • 미국 국립 의학 도서관은 기계 판독 가능한 최초의 주요 데이터베이스이자 일괄 검색 시스템인 MEDLARS 의학 문헌 분석 및 검색 시스템을 개발했습니다.
    • MIT의 Intrex 프로젝트
    1965년: J. C. R. 릭라이더미래의 도서관을 출판했다.
    1966년: Don Swanson은 시카고 대학에서 미래 카탈로그의 요건에 관한 연구에 종사했습니다.
    1960년대 후반: F. Wilfrid Lancaster는 MEDLARS 시스템에 대한 평가 연구를 완료하고 정보 검색에 관한 그의 텍스트 초판을 출판했습니다.
    1968년:
    • Gerard Salton은 Automatic Information Organization and Retrieval을 출판했습니다.
    • John W. Sammon, Jr.의 RADC Tech는 "정보 저장 및 검색의 일부 수학.."는 벡터 모델의 개요를 나타냅니다.
    1969년: Sammon의 "데이터 구조 분석을 위한 비선형 매핑"(IEEE Transactions on Computers)은 IR 시스템에 대한 시각화 인터페이스를 최초로 제안한 것입니다.
  • 1970년대
    1970년대 초반:
    • 최초의 온라인 시스템 -NLM의 AIM-TWX, MEDLINE, 록히드 대화상자, SDC의 ORBIT.
    • Theodor Nelson은 하이퍼텍스트 개념을 홍보하고 Computer Lib/Dream Machines를 출판했습니다.
    1971년: Nicholas JardineCornelis J. van Rijsbergen은 "클러스터 가설"[14]을 명확히 한 "정보 검색에서의 계층적 클러스터링 사용"을 발표했다.
    1975년: Salton의 세 가지 매우 영향력 있는 출판물은 그의 벡터 처리 프레임워크와 용어 식별 모델을 완전히 표현했다.
    • 색인화 이론 (산업 및 응용 수학 학회)
    • 자동 텍스트 분석에서 용어의 중요성 이론(JASIS v.26)
    • 자동 인덱싱을 위한 벡터 공간 모델(CACM 18:11)
    1978년: 제1회 ACM SIGIR 회의.
    1979년: C. J. van Rijsbergen이 정보보상(Butterworths)을 출판.확률론적 모델을 크게 강조한다.
    1979년: Tamas Doszkocs는 국립 의학 도서관에서 MEDLINE을 위한 CITE 자연어 사용자 인터페이스를 구현했다.CITE 시스템은 자유로운 형식의 질의 입력, 순위 매김 출력 및 관련 [15]피드백을 지원했다.
  • 1980년대
    1980년: 케임브리지에서 영국컴퓨터협회 IR그룹과 공동으로 제1회 ACM SIGIR 국제회의 개최.
    1982년: 니콜라스 J. 벨킨, 로버트 N.Ody와 Helen M. Brooks는 정보 검색을 위한 ASK(Anomalous State of Knowledge) 관점을 제안했습니다.이것은 중요한 개념이었지만, 자동 분석 툴은 결국 실망스러운 결과를 낳았습니다.
    1983년: Salton(및 Michael J. McGill)은 벡터 모델에 중점을 둔 "Introduction to Modern Information Retrieval"(McGraw-Hill)을 출판했습니다.
    1985년: David Blair와 Bill Maron 출판: 전문 문서 검색 시스템의 검색 효과 평가
    1980년대 중반: 상용 IR 시스템의 최종 사용자 버전 개발을 위한 노력.
    1985-1993: 시각화 인터페이스에 대한 핵심 문서 및 실험 시스템.
    Donald B의 작품. 크라우치, 로버트 R. 코페이지, 매튜 찰머스, 앤셀름 스포어리 등
    1989년: CERN의 Tim Berners-Lee에 의한 최초의 월드 와이드 웹 제안.
  • 1990년대
    1992년 제1회 TEC 회의.
    1997년: 시각화 및 다중 참조 포인트 시스템에 중점을 둔 Korfhage정보 저장검색[16] 발행.
    1999년: 모든 IR을 다루는 첫 번째 책인 애디슨 웨슬리의 리카르도 배자 예이츠와 베르티에 리베이로 네토의 현대 정보 검색 출판.
    1990년대 후반: 이전에는 실험적인 IR 시스템에서만 볼 수 있었던 많은 기능의 웹 검색 엔진 구현.검색 엔진은 IR 모델의 가장 일반적인 인스턴스화가 될 수 있습니다.

주요 회의

현장에서의 수상

「 」를 참조해 주세요.

레퍼런스

  1. ^ Luk, R. W. P. (2022). "Why is information retrieval a scientific discipline?". Foundations of Science. 27 (2): 427–453. doi:10.1007/s10699-020-09685-x.
  2. ^ Jansen, B. J. and Rieh, S. (2010) 정보 검색정보 검색17가지 이론적 구조 2016-03-04를 Wayback Machine에 보관.미국정보과학회지. 61 (8), 1517년-1534년.
  3. ^ Goodrum, Abby A. (2000). "Image Information Retrieval: An Overview of Current Research". Informing Science. 3 (2).
  4. ^ Foote, Jonathan (1999). "An overview of audio information retrieval". Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106. S2CID 2000641.
  5. ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Archived from the original on 2011-05-13. Retrieved 2012-03-13.
  6. ^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archived from the original on 2013-09-28.
  7. ^ a b Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview" (PDF). Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 24 (4): 35–43.
  8. ^ Mark Sanderson & W. Bruce Croft (2012). "The History of Information Retrieval Research". Proceedings of the IEEE. 100: 1444–1451. doi:10.1109/jproc.2012.2189916.
  9. ^ JE Holmstrom (1948). "'Section III. Opening Plenary Session". The Royal Society Scientific Information Conference, 21 June-2 July 1948: Report and Papers Submitted: 85.
  10. ^ Moers, Calvin N.; 비수치 정보의 디지털 처리 이론과 그것이 기계 경제학에 미치는 영향 (Zator Technical Bulletin No.48)에 인용됨
  11. ^ Doyle, Lauren; Becker, Joseph (1975). Information Retrieval and Processing. Melville. pp. 410 pp. ISBN 978-0-471-22151-7.
  12. ^ Perry, James W.; Kent, Allen; Berry, Madeline M. (1955). "Machine literature searching X. Machine language; factors underlying its design and development". American Documentation. 6 (4): 242–254. doi:10.1002/asi.5090060411.
  13. ^ Maron, Melvin E. (2008). "An Historical Note on the Origins of Probabilistic Indexing" (PDF). Information Processing and Management. 44 (2): 971–972. doi:10.1016/j.ipm.2007.02.012.
  14. ^ N. Jardine, C.J. van Rijsbergen (December 1971). "The use of hierarchic clustering in information retrieval". Information Storage and Retrieval. 7 (5): 217–240. doi:10.1016/0020-0271(71)90051-9.
  15. ^ Doszkocs, T.E. & Rapp, B.A.(1979년)"영어 MEDLINE 검색: 자연어 쿼리, 순위 출력 및 관련 피드백이 포함된 프로토타입 사용자 인터페이스" 입력: ASIS 연차총회 진행, 16: 131-139.
  16. ^ Korfhage, Robert R. (1997). Information Storage and Retrieval. Wiley. pp. 368 pp. ISBN 978-0-471-14338-3.

추가 정보

외부 링크