데이터 마이닝의 예
Examples of data mining대형 데이터 세트의 패턴을 발견하는 과정인 데이터 마이닝은 많은 애플리케이션에서 사용되어 왔다.null
게임.
1960년대 초반부터 시작 구성, 작은 보드 도트 앤 박스, 작은 보드 헥스 및 체스, 도트 앤 박스, 헥스 등의 특정 엔드게임으로 불리는 특정 결합 게임용 오라클의 가용성과 함께 데이터 마이닝의 새로운 영역이 열렸다.이것은 이 웅변에서 인간이 사용할 수 있는 전략을 추출한 것이다.현재의 패턴 인식 접근법은 성공적으로 적용하기 위해 요구되는 높은 수준의 추상화를 완전히 획득하지 못하는 것 같다.대신 테이블베이스를 사용한 광범위한 실험은 잘 설계된 문제에 대한 탁상 기반 탐색기의 집중적인 연구와 사전 예술에 대한 지식(즉, 탁상 베이스 이전의 지식)을 결합하여 통찰력 있는 패턴을 산출하는 데 사용된다.Berlekamp (점 앤 박스 등)와 John Nunn (체스 엔드게임 등)은 테이블베이스 생성에 관여하지는 않았지만 이 연구를 수행하는 연구자들의 주목할 만한 예들이다.null
비즈니스
비즈니스에서 데이터 마이닝은 데이터 웨어하우스 데이터베이스에 정적 데이터로 저장되는 과거의 비즈니스 활동을 분석하는 것이다.숨겨진 패턴과 트렌드를 드러내는 것이 목표다.데이터 마이닝 소프트웨어는 이전에는 알려지지 않았던 전략적 비즈니스 정보를 발견하는 데 도움을 주기 위해 대량의 데이터를 선별하기 위해 고급 패턴 인식 알고리즘을 사용한다.기업이 데이터 마이닝에 사용하는 예로는 신제품 번들을 식별하기 위한 시장 분석 수행, 제조 문제의 근본 원인 찾기, 고객 이탈 방지 및 신규 고객 확보, 기존 고객에 대한 교차 판매, 보다 정확한 고객 프로파일링 등을 들 수 있다.[1]null
- 오늘날의 세계에서 원시 데이터는 폭발적으로 빠른 속도로 기업들에 의해 수집되고 있다.예를 들어, 월마트는 매일 2,000만 건 이상의 판매 시점 거래를 처리한다.이 정보는 중앙집중식 데이터베이스에 저장되지만, 그것을 분석할 수 있는 어떤 종류의 데이터 마이닝 소프트웨어가 없다면 무용지물이 될 것이다.월마트가 데이터 마이닝 기법으로 판매 시점 데이터를 분석한다면 판매 동향을 파악하고, 마케팅 캠페인을 전개하며, 고객 충성도를 보다 정확하게 예측할 수 있을 것이다.[2][3]
- 전자상거래 사이트에서 이용할 수 있는 품목의 분류는 근본적인 문제다.올바른 항목 분류 시스템은 검색과 검색을 위해 그와 관련된 항목을 결정하는 데 도움이 되기 때문에 사용자 경험에 필수적이다.항목 분류는 데이터 마이닝에서 감독되는 분류 문제로 공식화될 수 있다. 데이터 마이닝에서 범주는 대상 등급이고 특징은 항목에 대한 일부 텍스트 설명을 구성하는 단어들이다.접근법 중 하나는 처음에는 비슷한 집단을 찾아 잠재된 집단에 함께 배치하는 것이다.이제 새로운 아이템을 주어, 먼저 거친 수준 분류라고 불리는 잠재된 그룹으로 분류한다.그런 다음 2차 분류 작업을 수행하여 항목이 속한 범주를 찾으십시오.[4]
- 신용카드나 상점 로열티 카드를 사용하거나 보증 카드를 채울 때마다 사용자의 행동에 대한 데이터가 수집되고 있다.많은 사람들은 구글, 페이스북, 아마존과 같은 회사로부터 우리에 대해 저장된 정보의 양이 불안하고 사생활에 대해 걱정한다.비록 우리의 개인 데이터가 유해하거나 원치 않는 방법으로 사용될 가능성이 있지만, 그것은 또한 우리의 삶을 더 좋게 만드는 데 사용되고 있다.예를 들어, 포드와 아우디는 언젠가 고객 운전 패턴에 대한 정보를 수집하여 그들이 더 안전한 경로를 추천하고 위험한 도로 상황에 대해 운전자들에게 경고할 수 있기를 희망한다.[5]
- 고객 관계 관리 애플리케이션의 데이터 마이닝은 순익에 크게 기여할 수 있다.[citation needed]콜센터를 통해 무작위로 잠재 고객이나 고객에게 연락하거나 메일을 보내기 보다는, 기업은 제안에 응할 가능성이 높을 것으로 예측되는 잠재 고객에 노력을 집중할 수 있다.캠페인 전체에 걸쳐 자원을 최적화하는 데 보다 정교한 방법을 사용할 수 있어 개인이 어떤 채널과 어떤 채널을 제공할 가능성이 가장 높은지를 예측할 수 있다(모든 잠재적 제안에서).또한, 메일을 자동화하는 데 정교한 애플리케이션을 사용할 수 있다.데이터 마이닝(잠재적인 잠재 고객/고객 및 채널/오퍼)의 결과가 결정되면, 이 "소박한 애플리케이션"은 자동으로 전자우편이나 일반우편을 전송할 수 있다.마지막으로, 많은 사람들이 제안 없이 조치를 취할 경우, "업리프트 모델링"을 사용하여 제안이 주어질 경우 어떤 사람들이 가장 응답성이 높은지 판단할 수 있다.이에 따라 업리프트 모델링을 통해 마케팅 담당자들은 우편물 발송과 제안사항을 설득력 있는 사람들에게 집중시킬 수 있으며, 제안 없이 제품을 구매할 사람들에게는 제안서를 보내지 않을 수 있다.데이터 클러스터링은 또한 고객 데이터 세트 내의 세그먼트 또는 그룹을 자동으로 검색하는 데 사용될 수 있다.
- 데이터 마이닝을 고용하는 기업은 투자 수익률을 볼 수 있지만, 예측 모델의 수가 빠르게 증가할 수 있다는 것도 인지하고 있다.예를 들어, 기업은 얼마나 많은 고객이 휘청거릴지 예측하기 위해 하나의 모델을 사용하는 대신에 각 지역과 고객 유형에 대해 별도의 모델을 구축하는 것을 선택할 수 있다.많은 모델을 유지해야 하는 상황에서 일부 기업은 보다 자동화된 데이터 마이닝 방법론으로 눈을 돌린다.
- 데이터 마이닝은 인사부(HR) 부서에서 가장 성공한 직원의 특성을 파악하는 데 도움이 될 수 있다.높은 성공률을 보인 직원들이 다니는 대학과 같이 획득한 정보는 HR이 그에 따른 인력 충원 노력을 집중시키는 데 도움이 될 수 있다.또한 Strategic Enterprise Management 애플리케이션은 기업이 이익 및 이윤 공유 목표와 같은 기업 수준의 목표를 생산 계획 및 인력 수준과 같은 운영상의 의사 결정으로 전환하도록 돕는다.[6]
- 시장 바스켓 분석은 알파 컨슈머의 구매 패턴을 파악하기 위해 사용되어 왔다.이런 유형의 사용자에 대해 수집된 데이터를 분석함으로써 기업은 향후 구매 동향을 예측하고 공급 수요를 예측할 수 있게 되었다.[citation needed]
- 데이터 마이닝은 카탈로그 마케팅 업계에서 매우 효과적인 수단이다.[citation needed]카탈로그 작성자들은 수 년 전 수백만 명의 고객들에 대한 고객 거래 내역에 대한 풍부한 데이터베이스를 보유하고 있다.데이터 마이닝 도구는 고객들 간의 패턴을 파악하고 향후 메일 캠페인에 응답할 가능성이 가장 높은 고객을 식별하는 데 도움이 된다.
- 비즈니스 애플리케이션을 위한 데이터 마이닝은 복잡한 모델링 및 의사 결정 프로세스에 통합될 수 있다.[7]라이온솔버는 RBI(Ractive Business Intelligence)를 사용하여 데이터 마이닝, 모델링 및 대화형 시각화를 인간과 자동화된 학습에 의해 구동되는 엔드투엔드 검색 및 지속적인 혁신 프로세스에 통합하는 "홀릭" 접근 방식을 옹호한다.[8]
- 의사결정 영역에서, RBI 접근방식은 의사결정자로부터 점진적으로 획득되는 지식을 채굴한 후, 그에 따라 의사결정 방법을 자체 조정하는 데 이용되었다.[9]데이터 마이닝 시스템의 품질과 투자의 의사 결정자를 할 용의가 있다고 양 사이의 관계는 organization[7]에 대한 대가 이decision-theoretic 분류 framework[7]는 현실 세계 semic에 적용되었다 면에서“지식 추출한”의 값에 경제적인 관점을 제공함으로써 공식화 되어졌다.onduc반도체 웨이퍼 제조 라인을 효과적으로 모니터링하고 제어하기 위한 의사결정 규칙을 개발한 Tor 웨이퍼 제조 라인.[10]
- 통합회로(IC) 생산 라인과 관련된 데이터 마이닝의 예는 "VLSI 테스트를 최적화하기 위한 IC 테스트 데이터 마이닝"[11]이라는 논문에서 설명한다.본 논문에서는 다이 레벨 기능 시험 문제에 대한 데이터 마이닝 및 의사결정 분석의 적용에 대해 설명한다.언급한 실험은 다이 실패 패턴의 확률론적 모델을 만들기 위해 과거 다이 테스트 데이터를 채굴하는 시스템을 적용할 수 있는 능력을 입증한다.그런 다음 이러한 패턴을 활용하여 다음에 테스트할 대상과 테스트 중지 시기를 실시간으로 결정한다.이 시스템은 과거 시험 데이터를 이용한 실험을 바탕으로 성숙한 IC 제품의 수익 개선 가능성을 입증했다.반도체 제조 환경에서 데이터 마이닝 방법론을 적용하는 다른 예는[12][13] 데이터가 부족할 때 데이터 마이닝 방법론이 특히 유용할 수 있으며 프로세스에 영향을 미치는 다양한 물리적 및 화학적 매개변수는 매우 복잡한 상호작용을 나타낸다.데이터 마이닝을 이용한 반도체 제조공정에 대한 온라인 모니터링이 효과적일 수 있다는 점도 시사한다.
이공계
최근 몇 년간, 데이터 마이닝은 생물정보학, 유전학, 의학, 교육, 전력공학 등 과학과 공학 분야에서 널리 사용되고 있다.null
- 인간 유전학의 연구에서, 시퀀스 마이닝은 인간 DNA 서열의 개인간 변화와 질병 감수성의 가변성 사이의 매핑 관계를 이해하는 중요한 목표를 다루는데 도움을 준다.간단히 말해서, 그것은 개인의 DNA 서열의 변화가 암과 같은 흔한 질병의 발병 위험에 어떻게 영향을 미치는지 알아내는 것을 목표로 하고 있는데, 이것은 이러한 질병들을 진단하고 예방하고 치료하는 방법을 향상시키는 데 매우 중요하다.이 작업을 수행하는 데 사용되는 한 가지 데이터 마이닝 방법을 다요소 차원성 감소라고 한다.[14]
- 전력공학 분야에서는 데이터 마이닝 방식이 고전압 전기장비의 상태 모니터링에 널리 사용되어 왔다.상태 모니터링의 목적은 예를 들어 절연 상태(또는 기타 중요한 안전 관련 매개변수)에 대한 귀중한 정보를 얻는 것이다.자체조성지도(SOM)와 같은 데이터 클러스터링 기법이 oltcs(Oltc-load tap-changers)의 진동 모니터링 및 분석에 적용되었다.진동 모니터링을 사용하여 각 탭 변경 작동은 탭 교환기 접점의 상태와 구동 메커니즘에 대한 정보를 포함하는 신호를 발생시키는 것을 관찰할 수 있다.분명히 탭 위치가 다르면 서로 다른 신호가 생성될 것이다.그러나 정확히 동일한 탭 위치에 대한 정상 상태 신호 간에는 상당한 가변성이 있었다.SOM은 이상 상태를 감지하고 이상 현상에 대한 가설을 세우는 데 적용되었다.[15]
- 전력 변압기의 용해 가스 분석(DGA)에 데이터 마이닝 방식이 적용됐다.전력 변압기에 대한 진단으로서 DGA는 여러 해 동안 이용 가능했다.생성된 데이터를 분석하고 표준 DGA 비율 방식(Duval Triangle 등)에 명확하지 않은 추세를 파악하기 위해 SOM과 같은 방법을 적용했다.[15]
- 교육 연구에서는 데이터 마이닝이 학생들이 학습을 줄이는 행동에 관여하도록 유도하고 대학생 [16]유지에 영향을 미치는 요인을 이해하도록 유도하는 요소를 연구하기 위해 사용되어 왔다.[17]데이터 마이닝의 사회적 적용의 유사한 예는 전문성 찾기 시스템에 사용하는 것으로, 특히 과학 및 기술 분야의 전문가 발굴을 용이하게 하기 위해 인간 전문지식의 기술자를 추출, 표준화 및 분류한다.이런 식으로 데이터 마이닝은 제도적 기억을 용이하게 할 수 있다.
- 도메인 온톨로지,[18] 임상 시험 데이터 마이닝,[19] SOM을 이용한 트래픽 분석 등을 통해 촉진되는 생체 의학 데이터의 데이터 마이닝 방법.[20]
- 의약품 부작용 감시에서, 웁살라 모니터링 센터는 1998년부터 데이터 마이닝 방법을 사용하여 WHO의 전 세계 460만 건의 의약품 부작용 의심 사고에 대한 보고 패턴에 대해 정기적으로 조사해왔다.[21]최근에는 의약품 처방을 의료진단과 연계한 시간적 패턴에 대한 전자 건강 기록의 많은 컬렉션을 채굴하는 유사한 방법론이 개발되고 있다.[22]
- 데이터 마이닝은 소프트웨어 엔지니어링 영역 내의 소프트웨어 아티팩트에 적용되었다.마이닝 소프트웨어 리포지토리.
- 미생물학 분야에서는 식품 내 세균의 집단 행동을 예측하는 데이터 마이닝 방식이 활용돼 왔다.[23]
인권
정부 기록의 데이터 마이닝(특히 사법 시스템 기록(즉, 법원, 교도소)은 여러 정부 기관에 의한 무효 또는 부정한 법적 기록의 생성 및 발행과 관련하여 체계적인 인권 침해의 발견을 가능하게 한다.[24][25]null
의료 데이터 마이닝
일부 머신러닝 알고리즘은 제2의 개념 진단 도구로서, 그리고 데이터베이스에서 지식을 발견하는 과정에서 지식 추출 단계를 위한 도구로서 의료 분야에 적용할 수 있다.이러한 분류자 중 한 명(시제품 예시 학습 분류기(PEL-C)라 불리는)[26]은 비정형 임상 사례뿐만 아니라 신드롬도 발견할 수 있다.null
데이터 마이닝의 과정을 활용하는 현재의 의학 분야는 DDC(Docractomics)인데, DDC는 생물학적 분자의 조사 및 연구와 체액, 세포, 조직 등과의 상호작용이 어떻게 특징지어지는가 하는 것이다.[27]대사학은 매우 데이터 집약적인 주제로서, 어떤 결론을 찾기 전에 종종 관련 없는 방대한 양의 데이터를 체로 걸러내는 것을 포함한다.데이터 마이닝은 지난 10년 이내에 비교적 새로운 의학 연구 분야가 상당히 성장할 수 있도록 해 주었으며, 연구 대상 내에서 새로운 연구가 발견되는 방법이 될 것 같다.[27]null
2011년 미국 대법원이 결정한 소렐 대 IMS헬스 주식회사 사건은 약국이 외부 기업과 정보를 공유할 수 있다는 판결을 내렸다.이 관행은 헌법 수정 제1조에 따라 '언론의 자유'를 수호하는 권한을 부여받았다.[28]그러나, 경제 및 임상 건강 관련 건강 정보 기술법(HITECH법)의 통과는 미국의 전자 건강 기록(EHR)과 지원 기술의 채택을 개시하는 데 도움이 되었다.[29]HITECH법은 2009년 2월 17일 미국 회수 및 재투자법(ARRA)[30]의 일환으로 법으로 제정되어 의료 데이터 마이닝의 문을 여는 데 도움을 주었다.이 법이 서명되기 전에는 미국에 본사를 둔 의사들 중 20%만이 전자 환자 기록을 이용하고 있었다.[29]Søren Brunak은 "환자 기록이 가능한 한 정보가 풍부해지고" 따라서 "데이터 마이닝 기회를 극대화한다"[29]고 언급한다.따라서 전자 환자 기록은 의료 데이터 마이닝에 관한 가능성을 더욱 확대하여 방대한 의료 데이터 분석의 문을 연다.null
공간정보 마이닝
공간정보 마이닝은 공간정보에 데이터 마이닝 방식을 적용하는 것이다.공간정보 채굴의 최종 목표는 지리에 관한 데이터에서 패턴을 찾는 것이다.지금까지 데이터 마이닝과 지리정보시스템(GIS)은 각각 독자적인 방법과 전통, 시각화 및 데이터 분석에 대한 접근방식을 가진 두 개의 별도 기술로 존재해왔다.특히 대부분의 현대 GIS는 매우 기본적인 공간 분석 기능만 가지고 있다.IT, 디지털 매핑, 원격 감지 및 GIS의 전지구적 확산에 의해 발생하는 지리적으로 참조되는 데이터의 엄청난 폭발은 지리학적 분석과 모델링에 대한 데이터 중심 유도 접근법의 개발의 중요성을 강조한다.null
데이터 마이닝은 GIS 기반의 응용 의사결정에 큰 잠재적 이익을 제공한다.최근, 특히 주제 및 지리적으로 참조되는 데이터와 함께 거대한 데이터베이스를 보유한 다양한 공공 및 민간 부문 조직이 그 안에 포함된 정보의 엄청난 잠재력을 실현하기 시작하면서, 이 두 기술을 통합하는 작업이 매우 중요해졌다.이러한 조직에는 다음이 포함된다.
- 지역 참조 통계 데이터의 분석 또는 배포가 필요한 사무실
- 질병 클러스터링에 대한 설명을 검색하는 공중 보건 서비스
- 토지 이용 패턴의 변화가 기후 변화에 미치는 영향을 평가하는 환경 기관
- 공간 위치에 따라 고객 세분화를 수행하는 지역 마케팅 회사.
공간 마이닝의 과제:지리공간 데이터 저장소는 매우 큰 경향이 있다.더욱이, 기존의 GIS 데이터셋은 종종 하이브리드 데이터 관리 시스템에 일반적으로 보관되는 특징과 속성 구성요소로 분할된다.알고리즘 요구사항은 관계형(속성형) 데이터 관리 및 위상학(특성형) 데이터 관리에서 상당히 다르다.[31]이와 관련, 고유한 과제를 제시하는 지리적 데이터 형식의 범위와 다양성이 있다.디지털 지리 데이터 혁명은 전통적인 "벡터"와 "래스터" 형식을 넘어 새로운 유형의 데이터 형식을 만들어 내고 있다.지리적 데이터 저장소는 이미지 및 지리적 참조 다중 매체와 같은 비정형 데이터를 점점 더 많이 포함하고 있다.[32]null
지리적 지식 발견과 데이터 마이닝에는 몇 가지 중요한 연구 과제가 있다.밀러와 한 교수는[33] 이 분야의 새로운 연구 주제 목록을 다음과 같이 제공한다.
- 지리적 데이터 웨어하우스(GDW) 개발 및 지원: 공간 속성은 주류 데이터 웨어하우스에서 단순한 애즈패티얼 속성으로 축소되는 경우가 많다.통합 GDW를 만들려면 의미론적 차이, 참조 시스템, 기하학, 정확도 및 위치 등 공간 및 시간적 데이터 상호운용성 문제를 해결해야 한다.
- 지리적 지식 발견에 있어서 더 나은 임시적 표현: 현재 지리적 지식 발견(GKD) 방법은 일반적으로 지리적 개체와 공간 관계에 대한 매우 단순한 표현을 사용한다.지리적 데이터 마이닝 방법은 더 복잡한 지리적 객체(즉, 선과 다각형)와 관계(즉, 지형과 같은 귀속된 지리적 공간을 통한 비유클리드 거리, 방향, 연결성 및 상호작용)를 인식해야 한다.더욱이, 시간 차원은 이러한 지리적 표현과 관계에 더 완전하게 통합될 필요가 있다.
- 다양한 데이터 유형을 이용한 지리적 지식 발견: 이미지, 지리적 참조 멀티미디어 등 기존의 래스터 및 벡터 모델뿐만 아니라 동적 데이터 유형(비디오 스트림, 애니메이션)을 넘어 다양한 데이터 유형을 처리할 수 있는 GKD 방법을 개발해야 한다.
시간 데이터 마이닝
데이터에는 다른 시간에 생성 및 기록되는 속성이 포함될 수 있다.이 경우 데이터에서 의미 있는 관계를 찾으려면 속성의 시간 순서를 고려해야 할 수 있다.시간적 관계는 인과 관계 또는 단순한 연관성을 나타낼 수 있다.[citation needed]null
센서 데이터 마이닝
무선 센서 네트워크는 대기오염 감시 등 다양한 어플리케이션의 공간정보 채굴을 위한 데이터 수집을 용이하게 하는 데 이용될 수 있다.[34]그러한 네트워크의 특징은 환경적 특성을 모니터링하는 근처의 센서 노드가 일반적으로 유사한 값을 등록한다는 것이다.센서 관찰 사이의 공간적 상관관계로 인한 이러한 종류의 데이터 중복은 네트워크 내 데이터 수집 및 마이닝 기법에 영감을 준다.서로 다른 센서에 의해 샘플링된 데이터 간의 공간 상관관계를 측정함으로써, 보다 효율적인 공간 데이터 마이닝 알고리즘을 개발하기 위한 광범위한 전문 알고리즘을 개발할 수 있다.[35]null
시각 데이터 마이닝
아날로그에서 디지털로 전환하는 과정에서 예측 패턴을 구축하기 위해 데이터에 숨어 있는 통계 패턴, 경향, 정보를 발견해 대형 데이터 세트를 생성, 수집, 저장해 왔다.연구에 따르면 시각적 데이터 마이닝은 전통적인 데이터 마이닝보다 빠르고 훨씬 직관적이라고 한다.[36][37][38]컴퓨터 비전을 참조하십시오.null
음악 데이터 마이닝
데이터 마이닝 기법, 특히 공동 발생 분석은 음악을 좀 더 객관적으로 장르로 분류하는 것을 포함하여 음악 회사(라디오 목록, CD 데이터베이스) 간의 관련 유사성을 발견하기 위해 사용되어 왔다.[39]null
감시
데이터 마이닝은 미국 정부에 의해 이용되어 왔다.프로그램으로는 TIA(Total Information Awareness) 프로그램, Secure Flight(이전의 컴퓨터 보조 승객 사전 예방 시스템(CAPS II), 분석, 보급, 시각화, Insight, 의미 강화(ADVISE),[40] 멀티스테이트 대테러 정보 교환(MATRIX) 등이 있다.[41]이들 프로그램은 그동안 각 기관이나 명칭이 다른 프로그램들이 지속적으로 자금을 지원받고 있지만 미국 수정헌법 4조에 위배되는지에 대한 논란으로 중단됐다.[42]null
테러리즘과 싸우는 맥락에서, 특히 그럴듯한 데이터 마이닝의 두 가지 방법은 "패턴 마이닝"과 "주체 기반 데이터 마이닝"이다.null
패턴 마이닝
'패턴 마이닝'은 데이터에서 기존 패턴을 찾아내는 데이터 마이닝 방식이다.이런 맥락에서 패턴은 종종 연관 규칙을 의미한다.협회 규칙을 검색하게 된 최초의 동기는 슈퍼마켓 거래 데이터를 분석하려는 욕망, 즉 구매한 상품의 관점에서 고객의 행동을 조사하려는 욕망에서 비롯되었다.예를 들어 협회의 규정인 '베어 ⇒ 포테이토 칩(80%)'에는 맥주를 산 고객 5명 중 4명도 포테이토 칩을 구입했다고 돼 있다.null
도구를 테러 행위를 확인할 것 패턴 광산의 맥락에서, 국립 연구 협의회:"Pattern-based 데이터 마이닝 — 무늬 작은 신호로 소음의 큰 바다에서 여겨질지도 모르는 테러 행위와 관련될 수 있는 패턴(이례적인 데이터의 문양 등)을 찾고 다음과 같은 정의를 제공한다."[43][44][45]패턴 마이닝은 시간 영역과 시간 영역 모두에서 보이는 패턴을 고전적인 지식 발견 검색 방법으로 가져오는 음악 정보 검색(MIR)과 같은 새로운 영역을 포함한다.null
주체 기반 데이터 마이닝
"주체 기반 데이터 마이닝"은 데이터에서 개인 간의 연결을 검색하는 것과 관련된 데이터 마이닝 방법이다.국가연구위원회는 테러리즘과 싸우는 맥락에서 "주체 기반 데이터 마이닝은 다른 정보에 기초하여 관심도가 높은 초기 개인 또는 기타 기준을 사용하며, 목표는 다른 사람이나 금융 거래나 움직임 등이 무엇인지를 결정하는 것이다"라고 정의한다.그 시작 기준에 맞추어져서."[44]null
지식 그리드
지식 검색 "온더 그리드"는 일반적으로 그리드 컴퓨팅 개념을 사용하여 개방형 환경에서 지식 검색을 수행하는 것을 말하며, 사용자가 다양한 온라인 데이터 소스의 데이터를 통합할 수 있을 뿐만 아니라 원격 리소스를 사용하여 데이터 마이닝 작업을 실행할 수 있다.가장 초기 예는 임페리얼 칼리지 런던에서 개발된 [46][47]디스커버리 넷으로, 생물정보학 응용을 위한 완전 대화형 분산 지식 발견 응용 프로그램의 시연에 기초하여 ACM SC02 (Supercomputing 2002) 회의 및 전시회에서 "가장 혁신적인 데이터 집약적 응용상"을 수상했다.다른 예로는 그리드 컴퓨팅을 기반으로 분산된 지식 발견을 위한 지식 그리드 아키텍처를 개발한 칼라브리아 대학의 연구원들이 수행한 작업이 있다.[48][49]null
참조
- ^ 오브라이언, J. A. & 마라카스, G. M. (2011)관리 정보 시스템.뉴욕, 뉴욕: 맥그로우 힐/어윈.
- ^ 알렉산더, D. (n.d.)데이터 마이닝오스틴의 텍사스 대학에서 검색된 내용:교양대학: http://www.laits.utexas.edu/~anorman/BUS.FOR/코스.mat/Alex/
- ^ "Daniele Medri: Big Data & Business: An on-going revolution". Statistics Views. 21 Oct 2013.
- ^ "Large Scale Item Categorization" (PDF). Archived from the original (PDF) on 2015-10-05.
- ^ 고스, S. (2013년 4월 10일)데이터 마이닝 및 개인 정보 보호.The Telegraph에서 검색됨: CS1 maint: 제목(링크)으로 보관된 사본
- ^ Monk, Ellen; Wagner, Bret (2006). Concepts in Enterprise Resource Planning, Second Edition. Boston, MA: Thomson Course Technology. ISBN 978-0-619-21663-4. OCLC 224465825.
- ^ a b c Elovici, Yuval; Braha, Dan (2003). "A Decision-Theoretic Approach to Data Mining" (PDF). IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans. 33 (1): 42–51. doi:10.1109/TSMCA.2003.812596. hdl:10150/105859.
- ^ 바티티, 로베르토, 브루나토, 마우로, 리액티브 비즈니스 인텔리전스. 2011년 2월, 데이터에서 모델, Insight, Response Search Srl, 이탈리아.ISBN 978-88-905795-0-9
- ^ Battiti, Roberto; Passerini, Andrea (2010). "Brain-Computer Evolutionary Multi-Objective Optimization (BC-EMO): a genetic algorithm adapting to the decision maker" (PDF). IEEE Transactions on Evolutionary Computation. 14 (15): 671–687. doi:10.1109/TEVC.2010.2058118. S2CID 2182650.
- ^ Braha, Dan; Elovici, Yuval; Last, Mark (2007). "Theory of actionable data mining with application to semiconductor manufacturing control" (PDF). International Journal of Production Research. 45 (13): 3059–3084. CiteSeerX 10.1.1.127.1472. doi:10.1080/00207540600654475. S2CID 2299178.
- ^ 샘, 토니; 디테리히, 토마스; 수디카, 빌(2000);VLSI 테스트를 최적화하기 위한 마이닝 IC 테스트 데이터, ACM Press, 페이지 18–25, 제6회 ACM SIGKDD 지식 검색 및 데이터 마이닝 국제 컨퍼런스 진행
- ^ Braha, Dan; Shmilovici, Armin (2002). "Data Mining for Improving a Cleaning Process in the Semiconductor Industry" (PDF). IEEE Transactions on Semiconductor Manufacturing. 15 (1): 91–101. CiteSeerX 10.1.1.10.7921. doi:10.1109/66.983448.
- ^ Braha, Dan; Shmilovici, Armin (2003). "On the Use of Decision Tree Induction for Discovery of Interactions in a Photolithographic Process" (PDF). IEEE Transactions on Semiconductor Manufacturing. 16 (4): 644–652. doi:10.1109/TSM.2003.818959.
- ^ Zhu, Xingquan; Davidson, Ian (2007). Knowledge Discovery and Data Mining: Challenges and Realities. New York, NY: Hershey. p. 18. ISBN 978-1-59904-252-7.
- ^ a b McGrail, Anthony J.; Gulski, Edward; Allan, David; Birtwhistle, David; Blackburn, Trevor R.; Groot, Edwin R. S. "Data Mining Techniques to Assess the Condition of High Voltage Electrical Plant". CIGRÉ WG 15.11 of Study Committee 15.
- ^ Baker, Ryan S. J. d. "Is Gaming the System State-or-Trait? Educational Data Mining Through the Multi-Contextual Application of a Validated Behavioral Model". Workshop on Data Mining for User Modeling 2007.
- ^ Superby Aguirre, Juan Francisco; Vandamme, Jean-Philippe; Meskens, Nadine. "Determination of factors influencing the achievement of the first-year university students using data mining methods". Workshop on Educational Data Mining 2006.
- ^ Zhu, Xingquan; Davidson, Ian (2007). Knowledge Discovery and Data Mining: Challenges and Realities. New York, NY: Hershey. pp. 163–189. ISBN 978-1-59904-252-7.
- ^ Zhu, Xingquan; Davidson, Ian (2007). Knowledge Discovery and Data Mining: Challenges and Realities. New York, NY: Hershey. pp. 31–48. ISBN 978-1-59904-252-7.
- ^ Chen, Yudong; Zhang, Yi; Hu, Jianming; Li, Xiang (2006). Traffic Data Analysis Using Kernel PCA and Self-Organizing Map. IEEE Intelligent Vehicles Symposium. pp. 472–477. doi:10.1109/IVS.2006.1689673. ISBN 978-4-901122-86-3. S2CID 16645060.
- ^ Bate, Andrew; Lindquist, Marie; Edwards, I. Ralph; Olsson, Sten; Orre, Roland; Lansner, Anders; de Freitas, Rogelio Melhado (Jun 1998). "A Bayesian neural network method for adverse drug reaction signal generation" (PDF). European Journal of Clinical Pharmacology. 54 (4): 315–21. doi:10.1007/s002280050466. PMID 9696956. S2CID 25966839.[영구적 데드링크]
- ^ 노렌, G. 니클라스, 베이트, 앤드류, 홉스타디우스, 요한, 별, 크리스티나, 에드워즈, I. 랠프(2008);경향과 과도현상에 대한 시간적 패턴 발견:환자 기록에 대한 응용 프로그램.제14차 국제 지식 검색 및 데이터 마이닝 회의(SIGKDD 2008), 라스베이거스, NV, 페이지 963–971.
- ^ Hiura, Satoko; Koseki, Shige; Koyama, Kento (2021-05-19). "Prediction of population behavior of Listeria monocytogenes in food using machine learning and a microbial growth and survival database". Scientific Reports. 11 (1): 10613. Bibcode:2021NatSR..1110613H. doi:10.1038/s41598-021-90164-z. ISSN 2045-2322. PMC 8134468. PMID 34012066.
- ^ Zernik, Joseph; 시민으로서의 데이터 마이닝 – 온라인 공공 죄수 등록 시스템, 소셜 미디어에 관한 국제 저널: 모니터링, 측정, 마이닝, 1: 84–96(2010)
- ^ Zernik, Joseph; 네트워크로 연결된 미국 연방 법원 온라인 사법 기록의 데이터 마이닝, 소셜 미디어에 관한 국제 저널: 모니터링, 측정, 마이닝, 1:69–83(2010)
- ^ Gagliardi, F (2011). "Instance-based classifiers applied to medical databases: Diagnosis and knowledge extraction". Artificial Intelligence in Medicine. 52 (3): 123–139. doi:10.1016/j.artmed.2011.04.002. PMID 21621400.
- ^ a b Martínez-Arranz, Ibon; Mayo, Rebeca; Pérez-Cormenzana, Miriam; Mincholé, Itziar; Salazar, Lorena; Alonso, Cristina; Mato, José M. (2015). "Enhancing metabolomics research through data mining". Journal of Proteomics. 127 (Pt B): 275–288. doi:10.1016/j.jprot.2015.01.019. PMID 25668325.
- ^ David G. Savage (2011-06-24). "Pharmaceutical industry: Supreme Court sides with pharmaceutical industry in two decisions". Los Angeles Times. Retrieved 2012-11-07.
- ^ a b c Goth, Gregory (2012). "Analyzing medical data". Communications of the ACM. 55 (6): 13. doi:10.1145/2184319.2184324.
- ^ http://searchhealthit.techtarget.com/definition/HITECH-Act
- ^ 힐리, 리처드 G. (1991); 맥과이어의 데이터베이스 관리 시스템; 굿차일드, 마이클 F. 및 린드, 데이비드 W. (eds), 지리 정보 시스템: 원칙과 애플리케이션, 런던, GB: 롱맨
- ^ 카마라, 안토니오 S; 그리고 래퍼, 조나단 (eds); 공간 멀티미디어와 가상현실, 런던, GB: 테일러와 프란시스
- ^ 밀러, 하비 J, 그리고 한, 자웨이 (eds.) (2001);지리 데이터 마이닝 및 지식 검색, 런던, GB: Taylor & Francis
- ^ Ma, Y.; Richards, M.; Ghanem, M.; Guo, Y.; Hassard, J. (2008). "Air Pollution Monitoring and Mining Based on Sensor Grid in London". Sensors. 8 (6): 3601–3623. Bibcode:2008Senso...8.3601M. doi:10.3390/s8063601. PMC 3714656. PMID 27879895.
- ^ Ma, Y.; Guo, Y.; Tian, X.; Ghanem, M. (2011). "Distributed Clustering-Based Aggregation Algorithm for Spatial Correlated Sensor Networks". IEEE Sensors Journal. 11 (3): 641. Bibcode:2011ISenJ..11..641M. CiteSeerX 10.1.1.724.1158. doi:10.1109/JSEN.2010.2056916. S2CID 1639100.
- ^ 자오, 카이디, 류, 빙, 티르파크, 토마스 M; 와이민, 샤오; 유용한 지식의 편리한 식별을 위한 시각적 데이터 마이닝 프레임워크
- ^ Keim, Daniel A;정보 시각화 및 시각 데이터 마이닝
- ^ Burch, Michael, Diehl, Stephan, Weißgerber, Peter, 소프트웨어 아카이브의 시각 데이터 마이닝
- ^ 파체트, 프랑수아, 웨스터만, 게르트, 레이그르, 데미안, 전자음악 유통을 위한 음악 데이터 마이닝, 웨이백머신, 2001년 이탈리아 피렌체, 페이지 101–106에 2014-03-27 보관.
- ^ 정부 회계감사실, 데이터 마이닝: 주요 DHS 프로그램 개발 시 프라이버시에 대한 조기 주의로 위험 감소 가능, GAO-07-293(2007년 2월), 워싱턴 DC
- ^ 보안 비행 프로그램 보고서, NBC 뉴스
- ^ "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website). 2003. Archived from the original on 2009-03-25. Retrieved 2009-03-15.
- ^ 아그라왈, 라케쉬, 마닐라, 하이키, 스리칸트, 라마크리쉬난, 토이보넨, 베르카모, AInkeri; 관련 규칙의 빠른 발견, 지식 검색 및 데이터 마이닝의 진보, MIT Press, 1996, 페이지 307–328
- ^ a b 국가연구위원회, 테러리스트와의 투쟁에서 개인의 프라이버시 보호: 프로그램 평가의 틀, 워싱턴 DC: 국립 아카데미 출판부, 2008
- ^ Haag, Stephen; Cummings, Maeve; Phillips, Amy (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. p. 28. ISBN 978-0-07-095569-1. OCLC 63194770.
- ^ Ghanem, Moustafa; Guo, Yike; Rowe, Anthony; Wendel, Patrick (2002). "Grid-based knowledge discovery services for high throughput informatics". Proceedings 11th IEEE International Symposium on High Performance Distributed Computing. p. 416. doi:10.1109/HPDC.2002.1029946. ISBN 978-0-7695-1686-8. S2CID 28782519.
- ^ Ghanem, Moustafa; Curcin, Vasa; Wendel, Patrick; Guo, Yike (2009). "Building and Using Analytical Workflows in Discovery Net". Data Mining Techniques in Grid Computing Environments. p. 119. doi:10.1002/9780470699904.ch8. ISBN 9780470699904.
- ^ Cannataro, Mario; Talia, Domenico (January 2003). "The Knowledge Grid: An Architecture for Distributed Knowledge Discovery" (PDF). Communications of the ACM. 46 (1): 89–93. doi:10.1145/602421.602425. S2CID 8709194. Archived from the original (PDF) on 2011-11-10. Retrieved 17 October 2011.
- ^ Talia, Domenico; Trunfio, Paolo (July 2010). "How distributed data mining tasks can thrive as knowledge services" (PDF). Communications of the ACM. 53 (7): 132–137. CiteSeerX 10.1.1.378.2206. doi:10.1145/1785414.1785451. S2CID 14713292. Archived from the original (PDF) on 2011-10-27. Retrieved 17 October 2011.
