컨셉 마이닝
Concept mining컨셉 마이닝은 아티팩트에서 컨셉을 추출하는 활동입니다.작업에 대한 솔루션은 일반적으로 데이터 마이닝 및 텍스트 [1][2]마이닝과 같은 인공지능 및 통계 측면을 포함합니다.아티팩트는 일반적으로 (개념이 아닌) 느슨하게 구성된 단어 및 기타 기호 순서이기 때문에 문제는 중요하지 않지만 문서의 의미, 출처 및 유사성에 대한 강력한 통찰력을 제공할 수 있습니다.
방법들
전통적으로 단어에서 개념으로의 변환은 시소러스를 [3]사용하여 수행되어 왔으며, 계산 기술의 경우에도 같은 경향이 있습니다.사용되는 thesauri는 태스크용으로 특별히 작성되거나 Princeton의 WordNet과 관련된 기존 언어 모델입니다.
단어와[4] 개념의 연관성은 종종 모호하다.일반적으로 특정 언어의 각 단어는 몇 가지 가능한 개념과 관련이 있습니다.인간은 주어진 텍스트의 다양한 의미를 명확히 하기 위해 콘텍스트를 사용합니다.이 경우 사용 가능한 기계 번역 시스템은 콘텍스트를 쉽게 추론할 수 없습니다.
그러나 개념 마이닝의 목적상, 이러한 모호성은 기계 번역보다 덜 중요한 경향이 있습니다.큰 문서에서는 텍스트 마이닝과 마찬가지로 모호성이 해소되는 경향이 있기 때문입니다.
사용할 수 있는 모호성 해소를 위한 많은 기법이 있다.예를 들어 텍스트의 언어 분석, 단어 및 개념 관련 빈도 정보의 사용 등이 있으며, 이는 큰 텍스트 말뭉치에서 추론할 수 있다.최근에는 가능한 개념과 맥락의 의미적 유사성에 기반을 둔 기법이 등장해 과학계에 관심을 끌고 있다.
적용들
대기업에서 유사한 문서 탐지 및 색인화
용어 도메인이 아닌 개념 영역에서 문서 통계를 계산할 때 파생되는 요소 중 하나는 개념이 초자연적인 트리 구조를 형성한다는 것입니다.이러한 구조는 단순한 트리 구성원 통계를 생성하는 데 사용할 수 있으며, 이 통계는 유클리드 개념 공간에서 문서를 찾는 데 사용할 수 있습니다.문서의 크기를 이 공간의 다른 차원으로 간주하면 매우 효율적인 색인 시스템을 만들 수 있습니다.이 기술은 현재 250만 개의 문서 말뭉치에서 유사한 법률 문서를 찾는 데 상업적으로 사용되고 있습니다.
주제별 문서 클러스터링
위에서 설명한 것과 같은 "개념 공간"에서 표준 수치 클러스터링 기술을 사용하여 추론된 주제를 기준으로 문서를 찾고 색인화할 수 있습니다.이들은 텍스트 마이닝 사촌들보다 수치적으로 훨씬 더 효율적이며, 인간이 생성하는 유사성 척도에 더 잘 대응한다는 점에서 더 직관적으로 행동하는 경향이 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ Wuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren 및 Carl-Johan Rundgren, "미디어에서의 시민[dead link] 과학 읽고 쓰는 능력 측정을 위한 뉴스 스토리에서 채굴 개념도", 컴퓨터 및 교육, 제55권, 제1호, 2010년 8월 17일자.
- ^ Li, Keqian; Zha, Hanwen; Su, Yu; Yan, Xifeng (November 2018). "Concept Mining via Embedding". 2018 IEEE International Conference on Data Mining (ICDM). IEEE. doi:10.1109/icdm.2018.00042.
- ^ 원현쩡, "중국 문서를 위한 자동 시소러스 생성", 미국정보과학기술학회지 제53권, 제13호, 2002년 11월, 페이지 1130-1138.
- ^ Wuen-Hsien Tseng, "클러스터 문서의 일반 제목 라벨", Expert Systems With Applications, Vol. 37, No. 3, 2010년 3월 15일, 페이지 2247-2254.