서브젝트 인덱스

Subject indexing

제목 색인은 문서의 내용을 요약하거나 검색 가능성을 높이기 위해 색인 용어, 키워드 또는 기타 기호로 문서를 설명하거나 분류하는 작업입니다.즉, 문서의 주제를 파악하고 기술하는 것입니다.색인은 세 가지 수준에서 별도로 구성됩니다. 책과 같은 문서의 용어, 라이브러리 같은 컬렉션의 객체, 지식 분야 내의 문서(책과 기사 등)입니다.

주제 색인은 특히 특정 주제에 대한 문서를 검색하기 위한 서지 색인을 작성하기 위해 정보 검색에 사용됩니다.학술 색인 서비스의 예로는 Zentralblatt MATH, Chemical Abstracts, PubMed 등이 있습니다.색인 용어는 대부분 전문가에 의해 지정되지만 작성자 키워드도 일반적입니다.

색인화 프로세스는 문서 제목 분석에서 시작됩니다.그런 다음 인덱서는 문서에서 직접 단어를 추출하거나 제어[1]어휘에서 단어를 할당하여 주제를 적절하게 식별하는 용어를 식별해야 합니다.그런 다음 인덱스의 항이 체계적인 순서로 표시됩니다.

인덱서는 포함할 항의 수와 특정 항을 결정해야 합니다.이를 통해 인덱스의 깊이를 알 수 있습니다.

주제 분석

색인 작성의 첫 번째 단계는 문서의 주제를 결정하는 것입니다.수동 인덱싱에서 인덱서는 "문서가 특정 제품, 조건 또는 현상을 다루는가?"[2]와 같은 일련의 질문에 대한 답변 측면에서 주제를 고려합니다.분석은 인덱서의 지식과 경험에 따라 영향을 받기 때문에 두 인덱서가 콘텐츠를 다르게 분석하므로 서로 다른 인덱스 용어를 사용할 수 있습니다.이는 검색 성공에 영향을 미칩니다.

자동 환자 분석과 수동 환자 분석

자동 색인은 단어 패턴의 빈도를 분석하고 결과를 다른 문서와 비교하는 정해진 프로세스를 수행하여 주제 카테고리에 할당합니다.이를 위해 색인화할 재료를 이해할 필요가 없습니다.이로 인해 인덱스가 균일해지지만 진정한 의미는 해석되지 않습니다.컴퓨터 프로그램은 문장의 의미를 이해하지 못하기 때문에 관련 용어를 할당하지 못하거나 잘못 할당할 수 있습니다.로 깊이에서 전체 텍스트 분석하고 시간이 많이 드는은 인간의 indexers 한 문서의 제목, 추상, 요약과 결론 같은 특정 지역에,[3]자동화된 시스템과 전체적인 문서 분석할 수 있지만, 있는 옵션도 월의 특정 부위에 향하고 있어야 한다 제한 시간을 빼앗고 그들의 주의를 기울입니다.e문서.

용어 선택

색인화의 두 번째 단계는 주제 분석을 색인 용어 세트로 변환하는 것입니다.여기에는 문서에서 추출하거나 통제된 어휘에서 할당하는 작업이 포함될 수 있습니다.전문 검색을 폭넓게 실시할 수 있게 되면서, 많은 사람들이 정보 검색에 대한 자신의 전문지식에 의존하게 되었고 전문 검색은 매우 인기를 얻게 되었다.주제 색인 작성 및 전문가, 전문 색인 작성자, 카탈로그 작성자 및 라이브러리 작성자는 정보 구성 및 검색에 여전히 중요합니다.이러한 전문가들은 통제된 어휘를 이해하고 전체 텍스트 검색으로는 찾을 수 없는 정보를 찾을 수 있습니다.주제 인덱스를 작성하기 위한 전문가 분석 비용은 동등한 전문 자료와 검색 가능한 자료 세트를 제작하는 데 드는 하드웨어, 소프트웨어 및 인건비와 비교하기 어렵습니다.모든 사용자가 문서에 주석을 달 수 있는 새로운 웹 응용 프로그램을 통해 소셜 태깅은 특히 [4]웹에서 인기를 얻고 있습니다.

색인화의 한 응용 프로그램인 도서 색인은 정보 혁명에도 불구하고 상대적으로 변경되지 않았습니다.

추출/파생색인

추출 색인화에는 문서에서 직접 단어를 가져오는 작업이 포함됩니다.이는 자연 언어를 사용하며 단어 빈도를 계산하고 사전 설정된 임계값을 초과하는 빈도를 갖는 자동화된 기술에 적합합니다.일반적인 단어(예: "the", "and")를 포함하는 중지 목록이 참조되고 이러한 중지 단어는 색인 용어로 제외됩니다.

자동 추출 인덱스를 사용하면 구문이 아닌 단일 단어를 인덱싱하여 용어의 의미를 잃을 수 있습니다.일반적으로 발생하는 문구를 추출하는 것은 가능하지만, 주요 개념이 일관되지 않은 문구로 표현되면 더 어려워집니다.자동 추출 색인화는 또한 중지 목록을 사용하여 일반적인 단어를 제거하더라도 일부 자주 사용되는 단어가 문서 간 식별에 유용하지 않을 수 있다는 문제도 있습니다.예를 들어, 포도당이라는 용어는 당뇨병과 관련된 모든 문서에서 자주 발생할 수 있습니다.따라서 이 용어를 사용하면 데이터베이스에 있는 대부분의 문서 또는 모든 문서가 반환될 수 있습니다.검색 시 용어를 조합하는 사후 조정 인덱스는 이 효과를 감소시키지만 정보 전문가가 아닌 적절한 용어를 링크해야 하는 책임은 검색자에게 있습니다.또한 드물게 발생하는 용어가 매우 유의미할 수 있다. 예를 들어, 신약이 드물게 언급될 수 있지만, 주제의 참신성은 중요한 의미를 갖는다.자동화된 기법에 의해 보다 희귀한 용어를 포함시키고 일반적인 단어를 제외할 수 있는 한 가지 방법은 문서의 단어 빈도를 데이터베이스 전체의 빈도와 비교하는 상대적 빈도 접근법이다.따라서 데이터베이스의 나머지 부분을 기준으로 예상할 수 있는 것보다 문서에서 더 자주 발생하는 용어는 색인 용어로 사용할 수 있으며, 전체적으로 동일하게 자주 발생하는 용어는 제외됩니다.

자동 추출의 또 다른 문제는 개념이 논의되는 시점을 인식하지 못하지만 텍스트에서 색인 가능한 [5]키워드에 의해 식별되지 않는다는 것입니다.

이 프로세스는 단순한 문자열 매칭을 기반으로 하며 지능적인 분석을 수반하지 않기 때문에 결과물은 색인보다는 일치로 더 잘 알려져 있습니다.

할당 인덱싱

또는 인덱스 용어를 제어된 어휘에서 가져오는 할당 인덱싱이 있습니다.이것은 선호 용어가 색인화되고 동의어 또는 관련 용어가 사용자에게 선호 용어로 유도되므로 동의어를 제어할 수 있는 장점이 있다.즉, 사용자가 작성자가 사용하는 특정 용어에 관계없이 문서를 찾을 수 있으며 사용자가 가능한 모든 동의어를 [6]알고 확인할 필요가 없습니다.또한 적격 용어를 포함시킴으로써 호모그래프로 인한 혼동을 없앱니다.세 번째 장점은 위계질서 또는 연관성에 따라 관련 용어를 연결할 수 있다는 것이다. 예를 들어 경구약물의 색인 항목은 다른 경구약물을 위계질서의 동일한 수준에서 관련 용어로 나열할 수 있지만 치료와 같은 광범위한 용어와도 연결될 수 있다.할당 인덱스는 수동 인덱싱에서 사용되며 인덱서 간 일관성을 높이기 위해 서로 다른 인덱서에서 선택할 수 있는 제어된 용어 집합을 가집니다.제어된 어휘는 두 인덱서가 여전히 주제를 [2]다르게 해석할 수 있기 때문에 불일치를 완전히 제거하지는 않습니다.

인덱스 프레젠테이션

인덱싱의 마지막 단계는 엔트리를 체계적인 순서로 표시하는 것입니다.여기에는 링크 엔트리가 포함될 수 있습니다.미리 조정된 색인에서 인덱서는 사용자가 검색을 공식화할 수 있는 방법을 고려하여 항목에서 용어가 연결되는 순서를 결정합니다.사후 조정된 색인에서 엔트리는 개별적으로 제시되며 사용자는 검색을 통해 엔트리를 링크할 수 있으며, 가장 일반적으로 컴퓨터 소프트웨어에 의해 실행됩니다.사후 조정은 사전 조정에 비해 정밀도가 저하된다.

인덱싱 깊이

인덱서는 어떤 항목을 포함해야 하는지, 그리고 인덱스에 얼마나 많은 항목을 포함해야 하는지에 대해 결정해야 한다.인덱싱의 깊이는 완전성과 특수성을 고려하여 인덱싱 프로세스의 철저함을 나타냅니다.

완전성

전체 지수는 가능한 모든 색인 용어를 나열하는 지수입니다.소모성이 클수록 리콜이 증가하거나 모든 관련 문서가 검색될 가능성이 높아지지만, 이 경우 정밀도가 저하됩니다.즉, 사용자가 관련 없는 문서 또는 주제를 거의 상세하게 다루지 않는 문서를 더 많이 검색할 수 있습니다.수동 시스템에서는 더 많은 공수가 필요하기 때문에 더 높은 수준의 소모성으로 인해 더 많은 비용이 발생합니다.자동화 시스템에서 추가로 소요되는 시간은 훨씬 적습니다.척도의 다른 쪽 끝에서는 선택적 지수에서 가장 중요한 측면만 [9]다룬다.인덱서에 충분한 용어가 포함되어 있지 않은 경우 선택적 인덱스에서 리콜이 감소하여 관련성이 높은 문서를 간과할 수 있습니다.따라서 인덱서는 균형을 위해 노력해야 하며 문서가 사용될 수 있는 사항을 고려해야 한다.시간과 비용의 영향도 고려해야 할 수 있습니다.

특이성

특수성은 인덱스 용어가 나타내는 주제와 얼마나 밀접하게 일치하는지 설명합니다. 인덱서가 문서의 개념에 병렬 설명자를 사용하고 개념을 [11]정확하게 반영하는 경우 인덱스는 고유하다고 합니다.항을 많이 포함할수록 항이 좁아지기 때문에 특이성은 소모성과 함께 증가하는 경향이 있습니다.

색인화 이론

Hjörland(2011)[12]는 지수화 이론이 다양한 지식 이론과 가장 깊은 관련이 있다는 것을 발견했다.

  • (랑가나단의 이론과 같은) 색인에 대한 합리주의 이론은 주제들이 기본적인 범주 집합으로부터 논리적으로 구성된다는 것을 암시한다.주제분석의 기본방법은 기본범주의 집합(=분석)을 분리한 후 어떤 규칙(=분석)에 따라 그 범주들을 결합함으로써 주어진 문서의 주제를 구성하는 것이다.
  • 색인화의 경험주의 이론은 특히 수치 통계 기법을 적용하여 그 특성에 기초하여 유사한 문서를 선택하는 것에 기초한다.
  • 색인화에 대한 역사주의적이고 해석적인 이론은 왜 색인화가 특정 담론이나 도메인의 필요성을 반영해야 하는지, 주어진 문서의 주제가 주어진 담론이나 도메인에 상대적인 것임을 시사한다.해석학에 따르면 항상 특정한 관점에서 작성되고 해석되는 문서이다.지식 조직의 시스템과 이러한 시스템을 검색하는 모든 사용자도 마찬가지입니다.그러한 시스템에 대해 제기되는 모든 질문은 특정한 관점에서 제기된다.그 모든 지평선들은 어느 정도 공감대나 충돌에 있을 수 있다.문서를 색인화하는 것은 이러한 다양한 지평을 알고 "관련" 문서를 검색하는 데 기여하는 것입니다.
  • 실용적이고 비판적인 색인 이론(예: Hjörland, 1997)[13]은 주제 분석이 특정 토론에 상대적이라는 역사주의 관점과 일치하지만, 주제 분석은 주어진 목표와 가치를 지원해야 하며 어떤 식으로든 색인화의 결과를 고려해야 한다고 강조한다.이러한 이론은 인덱스가 중립적일 수 없으며 중립적인 방식으로 인덱스를 작성하려는 것은 잘못된 목표라고 믿고 있습니다.인덱싱은 행위입니다(그리고 컴퓨터 기반 인덱싱은 프로그래머의 의도에 따라 작동합니다).행동은 인간의 목표에 도움이 된다.라이브러리와 정보 서비스는 인간의 목표에도 도움이 됩니다.이러한 목표를 가능한 한 지원하는 방법으로 인덱스를 작성해야 하는 이유는 무엇입니까?도서관과 정보 서비스의 목적은 문서나 정보를 식별하는 것이기 때문에 언뜻 보기에는 이상해 보입니다.그럼에도 불구하고 인덱싱의 특정 방법은 항상 다른 용도로만 사용할 수 있습니다.색인화할 문서는 지역사회에서 특정한 목적을 위해 사용될 것입니다.기본적으로 인덱스는 동일한 목적을 위해 작성되어야 합니다.1차 및 2차 문서와 정보 서비스는 동일한 전체 사회 시스템의 일부입니다.이와 같은 시스템에서는 다른 이론, 인식론, 세계관 등이 작용하고 있으며 사용자는 자신의 방향을 잡고 다른 관점을 탐색할 수 있어야 한다.여기에는 현장에서 서로 다른 인식론의 매핑과 단일 문서의 그러한 지도로의 분류가 요구됩니다.이러한 다른 패러다임과 색인 및 분류 시스템에 대한 결과의 훌륭한 예는 예술 영역 örom(2003)[14]과 Abrahamsen(2003)[15]에 의해 음악으로 제공된다.

인덱스의 핵심은 Rowley & Farrow가[16] 기술한 바와 같이 지식에 대한 논문의 기여도를 평가하고 그에 따라 인덱스를 작성하는 것입니다.또는 Hjörland(1992년,[17] 1997년)의 말을 사용하여 정보 잠재력을 색인화한다.

"인덱서는 일관된 인덱스를 적절하게 작성하기 위해 주제 구조와 문서가 지식의 발전에 기여하는 성질을 철저히 파악해야 합니다."(Rowley & Farrow, 2000,[16] 페이지 99).

「 」를 참조해 주세요.

레퍼런스

  1. ^ F. W. Lancaster (2003) :"이론과 실천의 색인화, 추상화"제3판.런던, 패싯 ISBN1-85604-482-3. 6페이지
  2. ^ a b G. Chowdhury (2004) :"현대 정보 검색 입문"제3판런던, 패싯ISBN 1-85604-480-7. 71페이지
  3. ^ F. W. Lancaster (2003) :"이론적으로나 실제적으로나 색인화, 추상화"제3판.런던, 패싯 ISBN 1-85604-482-3. 24페이지
  4. ^ Voss, Jakob (2007). "Tagging, Folksonomy & Co - Renaissance of Manual Indexing?". Proceedings of the International Symposium of Information Science. pp. 234–254. arXiv:cs/0701072. Bibcode:2007cs........1072V.
  5. ^ J. Lamb (2008) :사람 또는 컴퓨터로 작성된 색인? 2014-06-04년 Society of Indexers, Wayback Machine [온라인] 셰필드에서 보관.2009년 1월 15일에 액세스.
  6. ^ C. Tenopir(1999) : "인간이든 자동이든 인덱스가 중요합니다."라이브러리 저널 124(18) 34-38페이지.
  7. ^ D. 보도프와 A.Kambil, (1998): "부분적인 조정.I. 사전 조정과 사후 조정의 최고." 미국정보과학회지 49(14), 1254-1269.
  8. ^ D.B. 클리블랜드와 AD.Cleveland (2001) :"인덱스 및 추상화 입문"제3판Englewood, 라이브러리 언리미티드, Inc.ISBN 1-56308-641-7. 105페이지
  9. ^ B.H. 와인버그(1990): "지수의 고갈:책, 저널, 전자 전문; 1999년 ASI 연차총회에서 발표된 워크숍 요약.키워드, 7(5), 1페이지 이상.
  10. ^ J.D. 앤더슨(1997):색인관련 정보 검색 장치 지침 [온라인]Niso Press. 2008년 12월 10일, 메릴랜드 주 베데스다.
  11. ^ D.B. 클리블랜드와 AD.Cleveland (2001) :"인덱스 및 추상화 입문"제3판Englewood, 라이브러리 언리미티드, Inc.ISBN 1-56308-641-7. 페이지 106
  12. ^ Hjörland, Birger (2011).지식 이론의 중요성:예를 들어 인덱싱 및 정보 검색입니다.미국정보과학기술학회지, 62(1), 72-77.
  13. ^ Hjörland, B. (1997년)정보 검색 및 주제 표현.정보과학에 대한 활동 이론 접근법.Westport & London: 그린우드 프레스.
  14. ^ ørom, Anders (2003)예술 연구 분야의 지식 조직 - 역사, 전환 및 개념적 변화.지식 조직. 30(3/4), 128-143.
  15. ^ 아브라함센, 크누트 T. (2003)음악 장르의 색인화.인식론적 관점.Knowledge Organization, 30(3/4, 144-169).
  16. ^ a b Rowley, J. E. & Farrow, J. (2000)정리 지식:정보 접근 관리 개요. 세 번째.올더스토트:가워 출판사
  17. ^ Hjörland, Birger (1992)정보과학의 '주제' 개념.문서저널 48(2), 172-200.http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

추가 정보

  • Fugman, Robert (1993). Subject analysis and indexing. Theoretical foundation and practical advice. Frankfurt/Main: Index Verlag.
  • Frohmann, B. (1990). "Rules of Indexing: A Critique of Mentalism in Information Retrieval Theory". Journal of Documentation. 46 (2): 81–101. doi:10.1108/eb026855.