과분류
Overcategorization너무 많은 카테고리, 클래스 또는 색인 용어를 지정된 문서에 할당하는 과정으로, 너무 많은 카테고리, 클래스 또는 카테고리 클러터. 문서 분류와 주제 색인화라는 LIS(Library and Information Science) 개념과 관련이 있다.
LIS에서 항목을 분류하기 위해 할당되어야 하는 이상적인 용어 수는 변수 정밀도와 회수율로 측정된다. 분류되는 항목의 내용과 가장 밀접하게 관련된 범주 레이블을 몇 개 할당하면 정밀도가 높은 검색, 즉 결과의 높은 비율이 쿼리와 밀접하게 연관되는 검색이 발생한다. 각 항목에 더 많은 범주 레이블을 할당하면 각 검색의 정밀도는 감소하지만 리콜이 증가하여 관련 결과가 더 많이 검색될 수 있다. 관련 LIS 개념은 지수화의 완전성과 정보 과부하를 포함한다.
기본 원리
주어진 문서에 너무 많은 카테고리가 할당되는 경우, 사용자에 대한 의미는 링크의 정보 제공 정도에 따라 달라진다. 사용자가 유용한 링크와 그렇지 않은 링크를 구별할 수 있는 경우, 손상은 제한된다. 사용자는 링크 선택에만 시간을 낭비한다. 그러나 많은 경우 사용자는 주어진 링크가 결실로 판명될 것인지 여부를 판단할 수 있다. 이 경우, 그 또는 그녀는 링크를 따라 다른 문서를 읽거나 건너뛰어야 한다. 물론 최악의 시나리오는 새로운 문서를 읽은 후에도 사용자가 주제의 조사를 철저히 하지 않을 경우 유용할 수 있는지 여부를 결정할 수 없다는 것이다.
지나치게 범주화하면 또 다른 불쾌한 함축적 의미가 있다. 그것은 (예를 들어 위키피디아에서) 시스템을 일관성 있게 유지하기 어렵게 만든다. 시스템이 일관되지 않으면 사용자가 주어진 범주의 링크를 고려할 때 해당 범주와 관련된 모든 문서를 찾을 수 없다는 것을 의미한다.
기본적으로 지나치게 범주화하는 문제는 관련성의 관점에서, 그리고 리콜과 정밀도의 전통적인 척도로 이해해야 한다. 문서에 관련 범주가 너무 적으면 리콜이 감소할 수 있다. 관련 없는 범주가 너무 많이 할당되면 정밀도가 낮아진다. 어려운 일은 어떤 범주가 이 문서의 향후 사용에 유익하거나 관련이 있는지를 말하는 것이다.