웹 마이닝

Web mining

웹 마이닝월드 와이드 웹에서 패턴을 발견하기 위해 데이터 마이닝 기술을 적용하는 것이다. 웹 페이지, 서버 로그 및 링크 구조에서 정형 데이터와 비정형 데이터를 모두 추출하기 위해 자동화된 방법을 사용한다. 웹 마이닝의 세 가지 주요 하위 범주가 있다. 웹 콘텐츠 마이닝은 페이지 내에서 정보를 추출한다. 웹 구조 채굴은 문서들 사이의 하이퍼링크의 구조를 발견하여 웹 페이지들의 집합을 분류하고 서로 다른 사이트들 사이의 유사성과 관계를 측정한다. 웹 사용 마이닝은 웹 페이지 사용 패턴을 찾는다.

웹 마이닝 유형

웹 마이닝은 웹 사용 마이닝, 웹 콘텐츠 마이닝, 웹 구조 마이닝의 세 가지 유형으로 나눌 수 있다.

웹 마이닝의 범주와 데이터 마이닝의 목적 사이의 일반적인 관계
웹 마이닝 유형 비교
웹 콘텐츠 마이닝 웹 구조 채굴 웹 사용량 마이닝
IR 보기 DB 보기
데이터 보기
  • 비정형화
  • 구조화된
  • 반구조화
  • DB로서의 웹 사이트
  • 링크 구조
  • 상호작용
주 데이터
  • 하이퍼텍스트 문서
  • 링크 구조
  • 서버 로그
  • 브라우저 로그
표현
  • 가장자리 레이블 그래프
  • 관계성
  • 그래프
  • 관계표
  • 그래프
방법
  • 독점 알고리즘
  • 머신러닝
  • 통계적
  • 연결 규칙
응용 프로그램 범주
  • 자주 사용되는 하위 구조 찾기
  • 웹 사이트 스키마 검색
  • 분류
  • 클러스터링
  • 부지조성
  • 적응 및 관리

웹 사용량 마이닝

웹 사용 마이닝은 웹 기반 애플리케이션의 요구를 이해하고 더 나은 서비스를 제공하기 위해 웹 데이터로부터 흥미로운 사용 패턴을 발견하기 위한 데이터 마이닝 기법의 응용이다. 사용 데이터는 웹 사이트의 검색 동작과 함께 웹 사용자의 ID 또는 출처를 캡처한다.

웹 사용 마이닝 자체는 고려된 사용 데이터의 종류에 따라 추가로 분류될 수 있다.

  • 웹 서버 데이터: 사용자 로그는 웹 서버에 의해 수집된다. 일반적인 데이터에는 IP 주소, 페이지 참조 및 액세스 시간이 포함된다.
  • 응용 프로그램 서버 데이터: 상용 응용 프로그램 서버는 전자 상거래 응용 프로그램을 거의 노력하지 않고 그 위에 구축할 수 있는 중요한 기능을 가지고 있다. 주요 특징은 각종 비즈니스 이벤트를 추적해 애플리케이션 서버 로그에 기록하는 기능이다.
  • 응용 프로그램 수준 데이터: 새로운 종류의 이벤트는 애플리케이션에서 정의될 수 있으며, 로그가 설정될 수 있으므로 이러한 특별하게 정의된 이벤트의 기록을 생성할 수 있다. 많은 최종 애플리케이션은 위의 범주에 적용된 하나 이상의 기법을 조합해야 한다.

업무와[1] 관련된 연구는 웹 사용 마이닝에 적용되는 제약 기반 데이터 마이닝 알고리즘과 개발된 소프트웨어 도구(시스템)의 두 가지 영역과 관련이 있다. 코스타와 세코는 웹 로그 마이닝이 사용자와 주어진 커뮤니티에 대한 의미 정보(특히 하이포니 관계)를 추출하는 데 사용될 수 있음을 증명했다.

프로스

웹 사용 광업은 본질적으로 정부 기관을 포함한 기업들에게 이 기술을 매력적으로 만드는 많은 이점을 가지고 있다. 이 기술은 전자상거래개인화된 마케팅을 할 수 있게 했고, 결국 더 많은 무역량을 얻게 되었다. 정부 기관들은 위협을 분류하고 테러리즘에 대항하기 위해 이 기술을 사용하고 있다. 광산 응용 프로그램의 예측 능력은 범죄 활동을 식별함으로써 사회에 이익을 줄 수 있다. 기업은 고객의 요구를 더 잘 이해하고 고객의 요구에 더 빠르게 대응함으로써 더 나은 고객 관계를 구축할 수 있다. 기업은 고객을 찾고, 유치하고, 유지할 수 있으며, 고객 요구사항에 대한 습득한 통찰력을 활용하여 생산 비용을 절감할 수 있다. 그들은 창출된 프로파일에 근거한 목표 가격에 의해 수익성을 높일 수 있다. 그들은 심지어 회사가 특정 고객에게 홍보 제안을 함으로써 고객을 유지하려고 시도할 경쟁업체에 채무불이행 가능성이 있는 고객을 찾을 수 있기 때문에 고객이나 고객을 잃을 위험을 줄일 수 있다.

특히 개인화 영역에서 웹 사용 마이닝의 더 많은 이점은 사용자 행동과 접근 패턴에 추가적인 특징을 제공하는 확률론적 잠재 의미 분석 모델과 같은 특정 프레임워크에 요약되어 있다.[2] 이 과정이 협업 추천을 통해 사용자에게 보다 목적 적합한 콘텐츠를 제공하기 때문이다. 이 모델들은 또한 획득한 데이터와 패턴이 주관적이지 않고 시간이 지남에 따라 저하되지 않기 때문에 편향 및 타당성에 관한 질문 등 전통적인 기술과 관련된 문제를 해결할 수 있는 웹 사용 마이닝 기술의 능력을 입증한다.[3] 또한 기술의 장점을 보여줄 수 있는 웹 사용 마이닝 고유의 요소들이 있으며, 여기에는 채굴 단계 중 사용 패턴에 대한 해석, 분석, 추론 시 의미적 지식이 적용되는 방식이 포함된다.[4]

단점

웹 사용 마이닝 자체는 문제가 되지 않지만, 개인 데이터에서 사용될 때 이 기술은 우려를 야기할 수 있다. 웹 이용 채굴과 관련된 가장 비판적인 윤리 문제는 사생활 침해다. 개인에 관한 정보가 입수, 이용 또는 전파될 때, 특히 개인의 지식이나 동의 없이 발생하는 경우, 프라이버시는 상실된 것으로 간주된다.[5] 입수한 데이터는 분석하여 익명으로 만든 다음 익명 프로파일을 형성하도록 군집합하여 익명 프로파일을 작성한다.[5] 이러한 애플리케이션은 정보를 식별하기보다는 마우스를 클릭함으로써 사용자를 개별화한다. 일반적으로 탈개인은 개인의 특성과 장점이 아닌 집단적 특성을 바탕으로 사람을 판단하고 대우하는 경향으로 정의할 수 있다.[5]

또 다른 중요한 우려는 특정 목적을 위해 데이터를 수집하는 회사가 데이터를 완전히 다른 목적으로 사용할 수 있다는 것이며 이는 근본적으로 사용자의 이익을 침해한다는 것이다.

개인 데이터를 상품으로 판매하는 추세는 웹사이트 소유주들이 그들의 사이트에서 얻은 개인 데이터를 거래하도록 부추긴다. 이러한 경향은 포착되고 거래되는 데이터의 양을 증가시켜 사생활 침해의 호감을 증가시켰다. 데이터를 구매하는 회사들은 그것을 익명으로 만들 의무가 있고, 이 회사들은 채굴 패턴의 특정한 공개의 저자로 간주된다. 그들은 석방 내용에 대한 법적 책임을 져야 한다. 발표 내용이 부정확하면 심각한 소송이 발생하지만, 그들이 자료를 거래하는 것을 막는 법은 없다.

일부 채굴 알고리즘은 개인들을 분류하기 위해 성, 인종, 종교 또는 성적 지향과 같은 논란의 여지가 있는 속성을 사용할 수 있다. 이러한 관행은 차별금지법에 위배될 수 있다.[6] 애플리케이션은 이러한 논란의 여지가 있는 속성의 사용을 식별하기 어렵게 하며, 그러한 속성을 가진 알고리즘의 사용에 대한 강력한 규칙은 없다. 이 과정은 그의 인종, 종교 또는 성적 성향에 근거하여 서비스 거부나 개인에 대한 특권을 초래할 수 있다. 이러한 상황은 데이터 마이닝 회사가 유지하고 있는 높은 윤리 기준을 통해 피할 수 있다. 수집된 데이터는 익명으로 만들어져서, 수집된 데이터와 수집된 패턴을 개인으로 추적할 수 없다. 이것은 개인의 사생활에 위협이 되지 않는 것처럼 보일 수 있지만, 사용자로부터 분리된 두 개의 비양심적인 데이터를 결합하여 응용 프로그램에 의해 추가 정보를 추정할 수 있다.

웹 구조 채굴

웹 구조 채굴은 그래프 이론을 사용하여 웹 사이트의 노드와 연결 구조를 분석한다. 웹 구조 데이터의 종류에 따라 웹 구조 마이닝은 다음과 같은 두 종류로 나눌 수 있다.

  1. 웹의 하이퍼링크에서 패턴 추출: 하이퍼링크는 웹 페이지를 다른 위치에 연결하는 구조적인 구성요소다.
  2. 문서 구조 채굴: HTML 또는 XML 태그 사용을 설명하기 위한 페이지 구조물의 트리 같은 구조 분석.

웹 구조 마이닝 용어:

  • 웹 그래프: 웹을 나타내는 방향 그래프.
  • 노드: 그래프의 웹 페이지.
  • 에지: 하이퍼링크.
  • 정도: 특정 노드를 가리키는 링크 수입니다.
  • Outdition: 특정 노드에서 생성된 링크 수입니다.

웹 구조 채굴 기술의 한 예로 구글이 검색 결과의 순위를 매기기 위해 사용하는 페이지랭크 알고리즘이 있다. 페이지의 순위는 대상 노드를 가리키는 링크의 수와 품질에 의해 결정된다.

웹 콘텐츠 마이닝

웹 컨텐츠 마이닝은 웹 페이지 컨텐츠로부터 유용한 데이터, 정보 및 지식을 채굴, 추출 및 통합하는 것이다. 하이퍼텍스트 문서와 같이 월드 와이드 웹 상에서 끊임없이 확장되는 정보 출처의 상당 부분을 허용하는 이질성과 구조의 결여는 인터넷과 리코스, 알타 비스타, 웹 크롤러, 알리웹, 메타크라울러 등 월드 와이드 웹의 자동 검색, 조직, 검색 및 색인 도구를 만든다. 사용자에게 편안함을 주지만, 일반적으로 구조적 정보를 제공하거나 문서를 분류, 필터링 또는 해석하지 않는다. 이러한 요인들로 인해 연구자들은 지능형 웹 에이전트와 같은 정보 검색을 위한 보다 지능적인 도구를 개발하게 되었고, 웹에서 이용 가능한 준구조화된 데이터에 대한 더 높은 수준의 조직을 제공하기 위해 데이터베이스와 데이터 마이닝 기법을 확장하게 되었다. 웹 마이닝에 대한 에이전트 기반 접근법은 웹 기반 정보를 발견하고 정리하기 위해 특정 사용자를 대신하여 자율적으로 또는 반자동적으로 행동할 수 있는 정교한 AI 시스템의 개발을 포함한다. 연구원들은 웹에서 필요한 데이터를 수집하기 위해 웹 크롤러 응용 프로그램을 만든다. 예를 들어, 아파트 정보는 온라인 부동산 목록 웹사이트에서 수집되어 새로운 데이터 집합을 생성할 수 있다. [7]

웹 콘텐츠 마이닝은 다음과 같은 두 가지 관점과 차별화된다.[8] 정보 검색 뷰와 데이터베이스 뷰.[9] 정보 검색 뷰에서 비정형 데이터와 반구조화 데이터에 대해 수행한 연구 작업을 요약했다. 이는 대부분의 연구가 단어에 대한 통계를 바탕으로 한 단어의 봉투를 사용하여 비정형 텍스트를 나타내고 훈련 말뭉치에서 발견된 단어의 특징을 취한다는 것을 보여준다. 준구조화된 데이터의 경우 모든 저작물은 문서 내부의 HTML 구조를 활용하고 일부는 문서표현을 위해 문서 사이의 하이퍼링크 구조를 활용했다. 데이터베이스 뷰에 대해서는, 보다 나은 정보 관리와 웹상의 질의 등을 하기 위해, 마이닝은 항상 웹 사이트의 구조를 유추하여 웹 사이트를 데이터베이스로 변혁시키려 한다.

문서를 표현하는 몇 가지 방법이 있다; 벡터 공간 모델이 일반적으로 사용된다. 그 문서는 전체 벡터 공간을 구성한다. 이 표현은 문서에서 단어의 중요성을 깨닫지 못한다. 이를 해결하기 위해 tf-idf(Term Frequency Times Inverse Document Frequency)를 도입한다.

문서를 다중 스캔함으로써 형상 선택을 구현할 수 있다. 범주 결과가 거의 영향을 받지 않는 조건에서 형상 부분집합 추출이 필요하다. 일반 알고리즘은 형상을 평가하기 위한 평가 함수를 구성하는 것이다. 피쳐 세트로서 정보 이득, 교차 엔트로피, 상호 정보, 승산비 등이 주로 사용된다. 텍스트 데이터 마이닝의 분류기와 패턴 분석 방법은 기존의 데이터 마이닝 기법과 매우 유사하다. 일반적인 평가 장점은 분류 정확도, 정밀도, 회수정보 점수다.

웹 마이닝은 OAI-PMH와 같은 개방형 프로토콜로 전송되는 구조화된 데이터의 검색을 보완할 수 있다.[10] 예를 들어 Unpaywall과 같은 학술 데이터베이스에 의한 오픈 소스 및 오픈 데이터 방법의 혼합을 통해 개방형 접속 버전을 식별하기 위해 채굴되는 학술 간행물의 저작물의 집계를 들 수 있다.[11]

외국어 웹 콘텐츠 마이닝

중국어

한자어언어코드는 영어에 비해 매우 복잡하다. GB, Big5HZ 코드는 웹 문서에서 흔히 볼 수 있는 중국어 단어 코드다. 텍스트 마이닝에 앞서 HTML 문서의 코드 표준을 파악해 내부 코드로 변환한 뒤 다른 데이터 마이닝 기법을 활용해 유용한 지식과 유용한 패턴을 찾아야 한다.

참고 항목

참조

  1. ^ 웨이히브로스 외
  2. ^ Ngu, Anne; Kitsuregawa, Masaru; Chung, Jen-Yao; Neuhold, Erich; Sheng, Quan (2005). Web Information Systems Engineering – WISE 2005. Berlin: Springer. pp. 15. ISBN 9783540300175.
  3. ^ Bauknecht, Kurt; Madria, Sanjay; Pernul, Gunther (2000). Electronic Commerce and Web Technologies: First International Conference, EC-Web 2000 London, UK, September 4-6, 2000 Proceedings. Berlin: Springer. pp. 165. ISBN 978-3540679813.
  4. ^ Scime, Anthony (2005). Web Mining: Applications and Techniques. Hershey, PA: Idea Group Publishing. pp. 282. ISBN 978-1591404149.
  5. ^ Jump up to: a b c Lita van Wel & Lambèr Royakkers (2004). "Ethical issues in web data mining" (PDF). Ethical Issues in Web Data Mining..
  6. ^ Kirsten Maelstrom; John F. Rodrick; Vladimir Estivill-Castro; Denise de Vries (2007). "Legal and Technical Issues of Privacy Preservation in Data Mining" (PDF). Legal and Technical Issues of Privacy Preservation in Data Mining..
  7. ^ Annamoradnejad, R.; Annamoradnejad, I.; Safarrad, T.; Habibi, J. (2019-04-20). "Using Web Mining in the Analysis of Housing Prices: A Case study of Tehran". 2019 5th International Conference on Web Research (ICWR): 55–60. doi:10.1109/ICWR.2019.8765250. ISBN 978-1-7281-1431-6. S2CID 198146435.
  8. ^ Wang, Yan. "Web Mining and Knowledge Discovery of Usage Patterns".
  9. ^ Kosala, Raymond; Hendrik Blockeel (July 2000). "Web Mining Research: A Survey". SIGKDD Explorations. 2 (1). arXiv:cs.LG/0011033. Bibcode:2000cs.......11033K. doi:10.1145/360402.360406. S2CID 60455.
  10. ^ Speirs, Martha A. (2013). "Data mining for scholarly journals: challenges and solutions for libraries". Cite 저널은 필요로 한다. journal= (도움말)
  11. ^ Dhakal, Kerry (15 April 2019). "Unpaywall". Journal of the Medical Library Association. 107 (2): 286–288. doi:10.5195/jmla.2019.650. PMC 6466485.

책들

  • Jesus Mena, Digital Press, 1999년 "데이터 마이닝 유어 웹사이트"
  • Soumen Chakrabarti, "Mining the Web: 하이퍼텍스트 및 반구조화 데이터의 분석", Morgan Kaufmann, 2002년
  • Advances in Web Mining and Web Usage Analysis 2005 - revised papers from 7 th workshop on Knowledge Discovery on the Web, Olfa Nasraoui, Osmar Zaiane, Myra Spiliopoulou, Bamshad Mobasher, Philip Yu, Brij Masand, Eds., Springer Lecture Notes in Artificial Intelligence, LNAI 4198, 2006
  • 웹 마이닝 및 웹 사용 분석 2004 - 웹상의 지식 검색, 뱀샤드 모바셔, 올파 나스라우이, 빙 류, 브리제이 마산드, 에드스, 스프링어 강의 노트, 2006년 6회 워크샵에서 수정된 논문

참고 문헌 참고 문헌