구조 마이닝

Structure mining

구조 마이닝 또는 구조화 데이터 마이닝은 반구조화 데이터 세트에서 유용한 정보를 찾아 추출하는 과정입니다.그래프 마이닝, 순차 패턴 마이닝 및 분자 마이닝은 구조화된 데이터[citation needed] 마이닝의 특별한 경우입니다.

묘사

반구조화 데이터의 사용이 증가함에 따라 데이터 마이닝과 관계형 데이터베이스 간의 강력한 연관성을 반영하여 전통적으로 표 형식의 데이터 세트에 관심을 가져왔던 데이터 마이닝의 새로운 기회가 창출되었습니다.한 세대의 소프트웨어 엔지니어는 이것이 데이터를 처리하는 유일한 방법이라고 믿도록 교육받았지만, 세계적으로 흥미롭고 채굴 가능한 데이터의 대부분은 관계형 데이터베이스로 쉽게 접히지 않습니다.또한 데이터 마이닝 알고리즘은 일반적으로 표 형식의 데이터만을 처리하기 위해 개발되었습니다.

XML은 반구조화 데이터를 표현하는 가장 빈번한 방법으로서 표 형식 데이터와 임의 트리를 모두 나타낼 수 있습니다.XML에서 두 응용 프로그램 간에 교환되는 데이터의 특정 표현은 일반적으로 XSD로 작성된 스키마에 의해 설명됩니다.를 들어 NewsML과 같은 이러한 스키마의 실제 예는 일반적으로 특수 사례 데이터를 나타내기 위해 사용되는 여러 개의 선택적 하위 트리를 포함하는 매우 정교하다.스키마의 약 90%가 이러한 옵션 데이터 항목 및 하위 트리의 정의에 관련되어 있는 경우가 많습니다.

따라서 XML을 사용하여 전송 또는 인코딩되고 동일한 스키마에 준거한 메시지 및 데이터는 전송되는 데이터에 따라 매우 다른 데이터를 포함할 수 있습니다.

이러한 데이터는 기존의 데이터 마이닝에 큰 문제를 일으킵니다.같은 스키마에 준거한2개의 메시지에는, 공통의 데이터가 거의 없는 경우가 있습니다.이러한 데이터로 교육 세트를 구축한다는 것은 기존의 데이터 마이닝용 표 형식의 데이터로 포맷하려고 하면 테이블의 많은 부분이 비워질 수도 있고 비워질 수도 있다는 것을 의미합니다.

대부분의 데이터 마이닝 알고리즘 설계에는 제시된 데이터가 완전할 것이라는 암묵적인 가정이 있다.또 다른 필요성은 감독하건 비감독하건 실제 마이닝 알고리즘이 희박한 데이터를 처리할 수 있어야 한다는 것입니다.즉, 정보의 일부만 제공되는 불완전한 데이터 집합에서는 기계 학습 알고리즘이 제대로 작동하지 않습니다.예를 들어 뉴럴 [citation needed]네트워크에 기반한 방법.로스 퀸랜의 ID3 [citation needed]알고리즘도 마찬가지고요문제의 좋은 샘플과 대표적인 샘플에서는 정확도가 높지만 편향된 데이터에서는 성능이 떨어집니다.대부분의 경우 입력과 출력의 보다 신중하고 공평한 표현으로 더 나은 모델 프레젠테이션으로 충분합니다.특히 적절한 구조와 모델을 찾는 것이 핵심인 분야는 텍스트 마이닝입니다.

XPath는 XML 내의 노드와 데이터 항목을 참조하기 위해 사용되는 표준 메커니즘으로 운영 체제 사용자 인터페이스에서 사용되는 디렉토리 계층을 탐색하기 위한 표준 기술과 유사합니다.모든 형식의 XML 데이터를 데이터화하고 구조화하려면 기존 데이터 마이닝에 최소 두 개의 확장자가 필요합니다.이는 XPath 스테이트먼트를 데이터 패턴 내의 각 데이터노드와 관련짓는 기능 및 문서 내의 노드 또는 노드 세트의 존재와 카운트를 조사하는 기능입니다.

예를 들어 XML에서 패밀리 트리를 나타내는 경우 이러한 확장자를 사용하면 트리 내의 모든 개별 노드, 사망 시 이름 및 경과시간 등의 데이터 항목 및 자녀 수 등의 관련 노드 수를 포함하는 데이터 세트를 만들 수 있습니다.좀 더 정교한 검색을 통해 조부모의 수명 등과 같은 데이터를 추출할 수 있습니다.

문서 또는 메시지의 구조와 관련된 이러한 데이터 유형을 추가하면 구조 마이닝을 쉽게 수행할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  • Andrew N Edmonds, XML의 데이터 마이닝 트리 구조화 데이터, 노팅엄 대학교, 2003년 8월, 데이터 마이닝 영국 컨퍼런스
  • Gusfield, D., 문자열, 트리 시퀀스에 대한 알고리즘: 컴퓨터 과학과 컴퓨터 생물학, 캠브리지 대학 출판부, 1997. ISBN0-521-58519-8
  • R.O. Duda, P.E. Hart, D.G. Stork, 패턴 분류, John Wiley & Sons, 2001.ISBN 0-471-05669-3
  • F. Hadzic, H. Tan, T.S. Dillon, Springer, 2010년, 복잡한 구조를 가진 데이터 마이닝ISBN 978-3-642-17556-5

외부 링크