자동 인덱싱

Automatic indexing

자동 인덱싱통제된 어휘, 분류법, 사우루스 또는 온톨로지 등에 대해 대량의 문서를 스캔하고 그러한 통제된 용어를 사용하여 대형 전자 문서 기탁관을 신속하고 효과적으로 인덱싱하는 컴퓨터화된 과정이다. 이러한 키워드나 언어는 어떤 단어를 일치시킬지 결정하는 규칙에 대한 시스템을 교육함으로써 적용된다. 여기에는 시스템에 기반한 구문, 사용법, 근접성, 기타 알고리즘과 인덱싱에 필요한 것 등 추가적인 부분이 있다. 이것은 텍스트에서 인덱싱 정보를 수집하고 캡처하기 위해 부울문을 사용하여 고려된다.[1] 인터넷의 확산에 따라 문서의 수가 기하급수적으로 증가함에 따라, 자동 인덱싱은 관련 없는 정보의 바다에서 관련 정보를 찾을 수 있는 능력을 유지하는 데 필수적이 될 것이다. 자연어 시스템은 이 관계없는 정보의 바다를 돕기 위해 7가지 다른 방법에 근거한 시스템을 훈련시키는데 사용된다. 이 방법들은 형태학, 어휘학, 통사학, 수치학, 구문론, 의미론, 실용론이다. 이러한 각각의 모양과 속도 및 용어의 서로 다른 부분은 인덱싱에 적용되고 있는 특정 정보에 대한 도메인을 구축한다. 이것은 인덱싱의 자동화된 과정에 사용된다.[1]

자동화된 프로세스는 문제에 직면할 수 있으며, 이는 주로 1) 언어의 복잡성, 2) 컴퓨터 기술 부분에 대한 진술에서 직관성 부족과 개념 추론 어려움이라는 두 가지 요인에 의해 야기된다.[2] 이것들은 주로 언어적인 도전이며 특정한 문제들은 언어의 의미적 측면과 통사적 측면을 포함한다.[2] 이러한 문제들은 정의된 키워드를 기반으로 발생한다. 이 키워드를 사용하여 히트, 미스 및 노이즈에 기반하여 시스템의 정확도를 결정할 수 있다. 이 용어들은 정확한 일치, 컴퓨터 시스템이 인간에게는 없는 것을 놓친 키워드, 컴퓨터가 인간에게는 없는 것을 선택한 키워드와 관련이 있다. 이를 바탕으로 한 Accuracy 통계량은 인간 지수 100% 중 히트의 경우 85% 이상이어야 한다. 이것은 미스와 노이즈의 결합을 15% 이하로 한다. 이 척도는 좋은 자동 인덱싱 시스템으로 간주되는 것의 기초를 제공하며 문제가 발생하는 위치를 보여준다.[1]

역사

특히 과학 및 공학 문헌에 대한 보다 빠르고 포괄적인 접근에 대한 요구와 함께 자동 인덱싱의 주제가 1950년대 초반에 관심을 끌었다고 인용하는 학자들이 있다.[3] 인덱싱에서 이러한 관심은 1957년에서 1959년 사이에 H.P.에 의해 텍스트 처리로 시작되었다. 연속적으로 발표된 논문들을 훑어보십시오. 룬은 컴퓨터가 키워드 매칭, 정렬, 콘텐츠 분석을 처리할 수 있다고 제안했다. 이것이 자동 인덱싱의 시작이자 주파수 분석을 바탕으로 텍스트에서 키워드를 추출하는 공식이었다. 나중에 주파수만으로는 좋은 설명자에 충분하지 않다고 결정되었지만, 이것은 자동 인덱싱을 통해 현재 우리가 있는 곳으로 가는 경로를 시작했다.[4] 이는 1960년대에[5] 예견된 정보폭발로 부각되었고, 정보기술과 월드와이드웹의 등장을 통해 생겨났다. 이 예측은 무어스에 의해 작성되었는데, 그 곳에서 컴퓨터는 텍스트 처리와 정보 검색을 위해 가질 것으로 기대되는 역할로 개요가 작성되었다. 이 예측은 기계가 큰 컬렉션의 문서 저장에 사용될 것이며 우리는 이 기계를 사용하여 검색을 실행할 것이라고 말했다. 뮤어스는 또한 데이터베이스 색인을 위한 온라인 측면과 검색 환경을 예측했다. 이것은 무어스가 인덱싱에 혁명을 일으킬 유도 추론 기계를 예측하게 했다.[4] 이러한 현상은 방대한 양의 데이터를 저장하고 정리하는 도전에 대처할 수 있고 정보 접근을 용이하게 할 수 있는 지수화 시스템의 개발이 필요했다.[6][7] 새로운 전자 하드웨어는 오래된 종이 보관소가 부과한 장벽을 극복하여 분자 수준의 정보 부호화가 가능했기 때문에 자동 인덱싱을 더욱 발전시켰다.[5] 이 새로운 전자 하드웨어와 함께 사용자를 돕기 위해 개발된 도구가 있었다. 이들은 파일 관리에 사용되었고 아웃룩과 같은 PDM Suite나 MindManager와 Freemind와 같은 Lotus Notes 및 Mind Mapping Tools와 같은 다른 범주로 구성되었다. 이것들은 사용자들이 저장과 인지 모델 구축에 집중할 수 있게 해준다.[8] 자동 인덱싱도 부분적으로 계산언어학이라는 분야의 출현에 의해 추진되는데, 이는 결국 언어의 구조와 의미에 컴퓨터 분석의 응용과 같은 기법을 만들어 내는 연구를 촉진했다.[3][9] 자동 인덱싱은 인공지능 분야에서의 연구 개발, 사고 기계라고도 불리는 자기 조직 시스템에 의해 더욱 박차를 가한다.[3]

참고 항목

참조

  1. ^ a b c Hlava, Marjorie M. (31 January 2005). "Automatic Indexing: A Matter of Degree". Bulletin of the American Society for Information Science and Technology. 29 (1): 12–15. doi:10.1002/bult.261.
  2. ^ a b Cleveland, Ana; Cleveland, Donald (2013). Introduction to Indexing and Abstracting: Fourth Edition. Santa Barbara, CA: ABC-CLIO. p. 289. ISBN 9781598849769.
  3. ^ a b c Riaz, Muhammad (1989). Advanced Indexing and Abstracting Practies. Delhi: Atlantic Publishers & Distributors. p. 263.
  4. ^ a b 기록 참고: 미국정보과학학회 제라드 저널 (1986-1998) 제라드 저널 (1986-1998); 1987년 9월; 38, 5; ProQuest 페이지 375
  5. ^ a b Torres-Moreno, Juan-Manuel (2014). Automatic Text Summarization. Hoboken, NJ: John Wiley & Sons. pp. xii. ISBN 9781848216686.
  6. ^ Kapetanios, Epaminondas; Sugumaran, Vijayan; Natural Language and Information Systems: 13th International Conference on Applications of Natural Language to Information Systems, NLDB 2008 London, UK, June 24-27, 2008, Proceedings, Myra (2008). Natural Language and Information Systems: 13th International Conference on Applications of Natural Language to Information Systems, NLDB 2008 London, UK, June 24-27, 2008, Proceedings. Berlin: Springer Science & Business Media. p. 350. ISBN 978-3-540-69857-9.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  7. ^ Basch, Reva (1996). Secrets of the Super Net Searchers: The Reflections, Revelations, and Hard-won Wisdom of 35 of the World's Top Internet Researchers. Medford, NJ: Information Today, Inc. pp. 271. ISBN 0910965226.
  8. ^ Jayaweera, Y. D.; Johar, Md Gapar Md; Perera, S. N. "Open Journal Systems". {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  9. ^ Armstrong, Susan (1994). Using Large Corpora. Cambridge, MA: MIT Press. p. 291. ISBN 0262510820.