정보 검색
Information retrieval정보과학 |
---|
일반적인 측면 |
관련 필드 및 하위 필드 |
컴퓨팅 및 정보과학에서의 정보검색(IR)은 정보요구에 관련된 정보시스템 자원을 이들 자원의 집합으로부터 취득하는 프로세스입니다.검색은 전체 텍스트 또는 기타 내용 기반 인덱싱을 기반으로 할 수 있습니다.정보 검색은 문서에서 정보를 검색하고 문서 자체를 검색하며 데이터를 설명하는 메타데이터 및 텍스트, 이미지 또는 소리 데이터베이스를 검색하는 과학입니다[1].
자동 정보 검색 시스템은 이른바 정보 과부하를 줄이기 위해 사용됩니다.IR 시스템은 책, 저널 및 기타 문서에 대한 액세스를 제공하는 소프트웨어 시스템입니다. 이러한 문서를 저장하고 관리합니다.웹 검색 엔진은 가장 눈에 띄는 IR 애플리케이션입니다.
개요
사용자가 시스템에 쿼리를 입력하면 정보 검색 프로세스가 시작됩니다.쿼리는 웹 검색 엔진의 검색 문자열과 같은 정보 요구에 대한 공식적인 문장입니다.정보 검색에서 쿼리는 컬렉션 내의 단일 개체를 고유하게 식별하지 않습니다.대신 여러 개체가 쿼리와 일치할 수 있으며 관련성이 다를 수 있습니다.
오브젝트는 콘텐츠 컬렉션 또는 데이터베이스의 정보로 표시되는 엔티티입니다.사용자 쿼리는 데이터베이스 정보와 대조됩니다.그러나 데이터베이스의 기존 SQL 쿼리와 달리 정보 검색에서는 반환된 결과가 쿼리와 일치하거나 일치하지 않을 수 있으므로 일반적으로 결과가 순위가 매겨집니다.이 결과 순위는 데이터베이스 [2]검색과 비교하여 정보 검색 검색의 주요 차이입니다.
응용 프로그램에 따라 데이터 객체는 텍스트 문서,[3][4] 이미지, 오디오[5], 마인드 맵 또는 비디오 등이 될 수 있습니다.대부분의 경우 문서 자체는 IR 시스템에 직접 보관 또는 저장되지 않고 대신 문서 대리 또는 메타데이터에 의해 시스템에 표시됩니다.
대부분의 IR 시스템은 데이터베이스의 각 개체가 쿼리와 얼마나 잘 일치하는지 숫자 점수를 계산하고 이 값에 따라 개체의 순위를 매깁니다.다음으로 상위 순위 객체가 사용자에게 표시됩니다.사용자가 쿼리를 [6]구체화하려는 경우 프로세스를 반복할 수 있습니다.
역사
유니백이라는 기계가 있다.긴 강철 테이프의 자석 점 패턴으로 문자와 숫자가 코드화됩니다.이것에 의해, 그 제목 코드 기호 앞에 있는 문서의 텍스트를 기록할 수 있습니다.기계...원하는 방식으로 분당 120단어의 속도로 코드화된 참조를 자동으로 선택하고 타이핑합니다.
--
컴퓨터를 사용하여 관련 정보를 검색한다는 생각은 1945년 [7]Vannevar Bush의 "우리가 생각할 수 있는 대로"라는 기사에서 대중화 되었다.부시는 1920년대와 30년대에 이매뉴얼 골드버그가 [8]필름에 저장된 문서를 검색한 '통계 기계'에 대한 특허에서 영감을 얻은 것으로 보인다.정보를 검색하는 컴퓨터의 첫 번째 기술은 1948년 [9]Holmstrom에 의해 설명되었으며, 유니백 컴퓨터의 초기 언급을 상세히 기술하였다.자동 정보 검색 시스템은 1950년대에 도입되었습니다.그 중 하나는 1957년의 로맨틱 코미디 「데스크 세트」에도 등장했습니다.1960년대에 코넬 대학의 Gerard Salton에 의해 최초의 대규모 정보 검색 연구 그룹이 결성되었습니다.1970년대까지 크랜필드 컬렉션(수천 개의 문서)[7]과 같은 작은 텍스트 말뭉치에서 여러 가지 다른 검색 기법이 잘 작동하는 것으로 나타났습니다.록히드 대화상자 시스템과 같은 대규모 검색 시스템은 1970년대 초에 사용되었습니다.
1992년 미국 국방부는 국립표준기술연구소(NIST)와 함께 TIPSTER 텍스트 프로그램의 일부로 TRC(Text Retrieval Conference)를 공동 주최했다.그 목적은 방대한 텍스트 컬렉션에서 텍스트 검색 방법론의 평가에 필요한 인프라를 제공함으로써 정보 검색 커뮤니티를 조사하는 것이었다.이것은 거대한 코퍼스로 확장되는 방법에 대한 연구를 촉진했다.웹 검색 엔진의 도입은 매우 큰 규모의 검색 시스템의 필요성을 더욱 증가시켰다.
적용들
정보 검색 기술을 사용하는 영역은 다음과 같습니다(각 카테고리 내에서 항목은 알파벳 순으로 표시됩니다).
일반 응용 프로그램
도메인 고유의 응용 프로그램
- 전문가 검색 결과
- 게놈 정보 검색
- 지리정보 검색
- 화학 구조 정보 검색
- 소프트웨어 엔지니어링에서의 정보 검색
- 법률정보 검색
- 수직 검색
기타 검색 방법
정보 검색 기술을 사용하는 방법/기술은 다음과 같습니다.
모델 타입
IR전략에 의해 관련 문서를 효과적으로 검색하기 위해 문서는 일반적으로 적절한 표현으로 변환됩니다.각 검색 전략은 문서 표현을 위해 특정 모델을 통합합니다.오른쪽 그림은 몇 가지 일반적인 모델의 관계를 보여줍니다.그림에서 모형은 수학적 기초와 모델의 속성이라는 두 가지 차원에 따라 분류됩니다.
첫 번째 차원: 수학적 기초
- 집합 이론 모델은 문서를 단어 또는 구로 나타냅니다.유사성은 일반적으로 그러한 집합에 대한 집합 이론 연산에서 도출된다.일반적인 모델은 다음과 같습니다.
- 대수적 모델은 일반적으로 벡터, 행렬 또는 튜플로 문서와 쿼리를 나타냅니다.쿼리 벡터와 문서 벡터의 유사성은 스칼라 값으로 나타난다.
- 확률론적 모델은 문서 검색 과정을 확률론적 추론으로 취급한다.유사성은 문서가 주어진 쿼리에 관련될 확률로 계산됩니다.베이즈 정리와 같은 확률론적 이론이 이러한 모델에서 자주 사용된다.
- 이진 독립성 모델
- okapi(BM25) 관련 함수에 기반을 둔 확률론적 관련성 모델
- 불확실한 추론
- 언어 모델
- 랜덤성으로부터의 발산 모델
- 잠재 디리클레 할당
- 기능 기반 검색 모델은 문서를 기능(또는 기능만) 값의 벡터로 보고 이러한 기능을 단일 관련성 점수로 결합하는 최선의 방법을 찾습니다(일반적으로 방법 순위를 매기는 방법을 배움).특징 함수는 문서 및 질의의 임의 함수이며, 따라서 다른 거의 모든 검색 모델을 다른 특징으로서 쉽게 통합할 수 있습니다.
두 번째 치수: 모델의 속성
- 용어 상호의존성이 없는 모형은 서로 다른 용어/단어를 독립적인 것으로 취급합니다.이 사실은 보통 벡터 공간 모델에서 용어 벡터의 직교성 가정에 의해 표현되거나, 확률론적 모델에서 용어 변수에 대한 독립성 가정에 의해 표현된다.
- 내재적인 용어 상호의존성을 갖는 모형은 용어들 사이의 상호의존성을 표현할 수 있게 한다.그러나 두 용어 사이의 상호의존성의 정도는 모형 자체에 의해 정의된다.이는 일반적으로 전체 문서에서 이러한 용어의 공존에서 직접 또는 간접적으로 도출된다(예: 치수 감소).
- 초월적인 용어 상호의존성을 갖는 모형은 용어들 사이의 상호의존성을 표현할 수 있게 하지만, 두 용어들 사이의 상호의존성이 어떻게 정의되는지는 주장하지 않는다.이들은 두 용어 간의 상호의존 정도를 외부 소스에 의존합니다(예를 들어 인간 알고리즘이나 정교한 알고리즘).
퍼포먼스 및 정확성 평가
'정보검색시스템 평가'는 이용자의 정보요구를 얼마나 잘 충족시키는지 평가하는 과정이다.일반적으로 측정은 검색할 문서 집합과 검색 쿼리를 고려합니다.Boolean[clarification needed] 검색 또는 top-k 검색을 위해 설계된 기존 평가 지표에는 정밀도와 호출이 포함됩니다.모든 척도는 관련성의 실측 개념을 가정한다. 즉, 모든 문서는 특정 쿼리와 관련이 있거나 관련이 없는 것으로 알려져 있다.실제로는 쿼리의 위치가 잘못되어 관련성이 다를 수 있습니다.
타임라인
- 1900년대 이전
- 1920~1960년대
- 이매뉴얼 골드버그는 마이크로필름 문서 롤의 메타데이터를 검색하기 위해 광전 셀과 패턴 인식을 사용한 문서 검색 엔진인 "통계 기계"에 대한 특허를 제출했습니다.
- 1940~1950년대
- 1940년대 후반:미군은 독일군으로부터 포착된 전시 과학 연구 문서를 색인화하고 회수하는 문제에 직면했다.
- 1950년대: 미국에서 소련과의 "과학 격차"에 대한 우려가 커지면서 자금 지원을 장려하고 기계화된 문학 검색 시스템(앨런 켄트 등)과 유진 가필드의 인용 색인 발명의 배경을 제공했습니다.
- 1950: "정보 검색"이라는 용어는 Calvin Moers에 [10]의해 만들어졌습니다.
- 1951년:[11] Philip Bagley는 MIT의 석사 논문에서 컴퓨터화된 문서 검색의 초기 실험을 수행했습니다.
- 1955년: 앨런 켄트는 케이스 웨스턴 리저브 대학에 입사하여 최종적으로 문서 통신 연구 센터의 부소장이 되었습니다.같은 해 켄트와 동료들은 검색되지 [12]않은 관련 문서의 수를 결정하기 위한 통계 표본 추출 방법을 포함하는 IR 시스템을 평가하기 위한 제안된 "프레임워크"를 상세히 설명하는 논문을 American Documentation에 발표했다.
- 1958년: Washington DC 국제과학정보회의는 식별된 문제에 대한 해결책으로 IR 시스템을 검토하였다.참조: 1958년 국제과학정보회의의 계속(미국 워싱턴 DC, 1959년)
- 1959년: 한스 피터 렌은 "정보 검색을 위한 문서의 자동 인코딩"을 발행했습니다.
- 1960년대:
- 1960년대 초: Gerard Salton은 Harvard에서 IR 일을 시작했고, 후에 Cornell로 옮겼다.
- 1960년: Melvin Earl Maron과 John Lary[13] Khhns는 ACM 7(3) 저널:216-244, 1960년 7월에 "관련성, 확률론적 색인 및 정보 검색에 대하여"를 발표했다.
- 1962년:
- 1963년:
- 1964년:
- 10대 중반:
- 1960년대 후반: F. Wilfrid Lancaster는 MEDLARS 시스템에 대한 평가 연구를 완료하고 정보 검색에 관한 그의 텍스트 초판을 출판했습니다.
- 1968년:
- Gerard Salton은 Automatic Information Organization and Retrieval을 출판했습니다.
- John W. Sammon, Jr.의 RADC Tech는 "정보 저장 및 검색의 일부 수학.."는 벡터 모델의 개요를 나타냅니다.
- 1970년대
- 1970년대 초반:
- 1971년: Nicholas Jardine과 Cornelis J. van Rijsbergen은 "클러스터 가설"[14]을 명확히 한 "정보 검색에서의 계층적 클러스터링 사용"을 발표했다.
- 1975년: Salton의 세 가지 매우 영향력 있는 출판물은 그의 벡터 처리 프레임워크와 용어 식별 모델을 완전히 표현했다.
- 색인화 이론 (산업 및 응용 수학 학회)
- 자동 텍스트 분석에서 용어의 중요성 이론(JASIS v.26)
- 자동 인덱싱을 위한 벡터 공간 모델(CACM 18:11)
- 1978년: 제1회 ACM SIGIR 회의.
- 1979년: C. J. van Rijsbergen이 정보보상(Butterworths)을 출판.확률론적 모델을 크게 강조한다.
- 1979년: Tamas Doszkocs는 국립 의학 도서관에서 MEDLINE을 위한 CITE 자연어 사용자 인터페이스를 구현했다.CITE 시스템은 자유로운 형식의 질의 입력, 순위 매김 출력 및 관련 [15]피드백을 지원했다.
- 1980년대
- 1980년: 케임브리지에서 영국컴퓨터협회 IR그룹과 공동으로 제1회 ACM SIGIR 국제회의 개최.
- 1982년: 니콜라스 J. 벨킨, 로버트 N.Ody와 Helen M. Brooks는 정보 검색을 위한 ASK(Anomalous State of Knowledge) 관점을 제안했습니다.이것은 중요한 개념이었지만, 자동 분석 툴은 결국 실망스러운 결과를 낳았습니다.
- 1983년: Salton(및 Michael J. McGill)은 벡터 모델에 중점을 둔 "Introduction to Modern Information Retrieval"(McGraw-Hill)을 출판했습니다.
- 1985년: David Blair와 Bill Maron 출판: 전문 문서 검색 시스템의 검색 효과 평가
- 1980년대 중반: 상용 IR 시스템의 최종 사용자 버전 개발을 위한 노력.
- 1989년: CERN의 Tim Berners-Lee에 의한 최초의 월드 와이드 웹 제안.
- 1990년대
주요 회의
- SIGIR: 정보 검색 연구개발 회의
- ECIR: 유럽 정보 검색 회의
- CIKM: 정보와 지식 관리에 관한 회의
- WWW: 국제 월드 와이드 웹 컨퍼런스
- WSDM: 웹 검색 및 데이터 마이닝 컨퍼런스
- ICTIR: 정보검색 이론 국제회의
현장에서의 수상
「 」를 참조해 주세요.
- 적대적 정보 검색 – 데이터 세트의 정보 검색 전략
- 컴퓨터 메모리 – 데이터를 저장하기 위해 컴퓨터에서 사용되는 장치
- 통제된 어휘 – 지식을 정리하는 방법
- 다국어 정보 검색
- 데이터 마이닝 – 대규모 데이터 세트의 패턴을 추출 및 검출하는 프로세스
- 유럽 정보 검색 서머 스쿨
- 인간 컴퓨터 정보 검색(HCIR)
- 정보 추출 – 구조화되지 않은 문서의 기계 판독
- 정보 검색 – 인적 및 기술적 맥락에서 정보를 얻으려고 시도하는 프로세스 또는 활동
- 정보 검색 기능
- 지식 시각화
- 멀티미디어 정보 검색
- 개인정보 관리– 자신의 데이터를 관리하기 위한 도구 및 시스템
- 이해도를 묻다
- 관련성(정보 검색)
- 관련성 피드백
- 로키오 분류
- 검색 엔진 인덱싱
- 정보 검색 특별 이익 단체
- 서브젝트 인덱스
- 시간 정보 검색
- tf-idf – 말뭉치의 문서에 대한 단어의 중요성을 반영하는 숫자
- XML 검색
- 웹 마이닝
레퍼런스
- ^ Luk, R. W. P. (2022). "Why is information retrieval a scientific discipline?". Foundations of Science. 27 (2): 427–453. doi:10.1007/s10699-020-09685-x.
- ^ Jansen, B. J. and Rieh, S. (2010) 정보 검색 및 정보 검색의 17가지 이론적 구조 2016-03-04를 Wayback Machine에 보관.미국정보과학회지. 61 (8), 1517년-1534년.
- ^ Goodrum, Abby A. (2000). "Image Information Retrieval: An Overview of Current Research". Informing Science. 3 (2).
- ^ Foote, Jonathan (1999). "An overview of audio information retrieval". Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106. S2CID 2000641.
- ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Archived from the original on 2011-05-13. Retrieved 2012-03-13.
- ^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archived from the original on 2013-09-28.
- ^ a b Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview" (PDF). Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 24 (4): 35–43.
- ^ Mark Sanderson & W. Bruce Croft (2012). "The History of Information Retrieval Research". Proceedings of the IEEE. 100: 1444–1451. doi:10.1109/jproc.2012.2189916.
- ^ JE Holmstrom (1948). "'Section III. Opening Plenary Session". The Royal Society Scientific Information Conference, 21 June-2 July 1948: Report and Papers Submitted: 85.
- ^ Moers, Calvin N.; 비수치 정보의 디지털 처리 이론과 그것이 기계 경제학에 미치는 영향 (Zator Technical Bulletin No.48)에 인용됨
- ^ Doyle, Lauren; Becker, Joseph (1975). Information Retrieval and Processing. Melville. pp. 410 pp. ISBN 978-0-471-22151-7.
- ^ Perry, James W.; Kent, Allen; Berry, Madeline M. (1955). "Machine literature searching X. Machine language; factors underlying its design and development". American Documentation. 6 (4): 242–254. doi:10.1002/asi.5090060411.
- ^ Maron, Melvin E. (2008). "An Historical Note on the Origins of Probabilistic Indexing" (PDF). Information Processing and Management. 44 (2): 971–972. doi:10.1016/j.ipm.2007.02.012.
- ^ N. Jardine, C.J. van Rijsbergen (December 1971). "The use of hierarchic clustering in information retrieval". Information Storage and Retrieval. 7 (5): 217–240. doi:10.1016/0020-0271(71)90051-9.
- ^ Doszkocs, T.E. & Rapp, B.A.(1979년)"영어 MEDLINE 검색: 자연어 쿼리, 순위 출력 및 관련 피드백이 포함된 프로토타입 사용자 인터페이스" 입력: ASIS 연차총회 진행, 16: 131-139.
- ^ Korfhage, Robert R. (1997). Information Storage and Retrieval. Wiley. pp. 368 pp. ISBN 978-0-471-14338-3.
추가 정보
- 리카르도 배자 예이츠, 베르티에 리베이루 네토최신 정보 검색: 검색의 개념과 테크놀로지 (제2판).Adison-Wesley(영국), 2011년
- Stefan Bütcher, Charles L. A. Clarke, Gordon V.코맥정보 검색: 검색 엔진 구현 및 평가MIT Press, 매사추세츠주 캠브리지, 2010년
- "Information Retrieval System". Library & Information Science Network. 24 April 2015.
- 크리스토퍼 D.매닝, 프라브하카르 라그하반, 힌리히 쉬체.정보 검색의 개요.케임브리지 대학 출판부, 2008.
외부 링크
