부정 행위 감지를 위한 데이터 분석 기술
Data analysis techniques for fraud detection![]() | 이 기사는 위키백과 편집자의 개인적인 감정을 진술하거나 주제에 대한 원론적인 주장을 제시하는 개인적인 성찰, 개인적인 에세이 또는 논쟁적인 에세이처럼 쓰여진다. 으로 하여 하십시오. (2010년 4월) (이 |
소개
휴대폰, 보험금 청구, 세금 환급 청구, 신용카드 거래, 정부 조달 등이 수반되는 사기는 정부 및 기업에 중대한 문제를 나타내며 이를 이용한 사기의 발견을 위한 전문 분석 기법이 요구된다.이러한 방법은 데이터베이스의 지식 검색(KDD), 데이터 마이닝, 머신러닝 및 통계 영역에 존재한다.그들은 전자 사기 범죄의 다른 분야에서 적용 가능하고 성공적인 해결책을 제공한다.[1]
일반적으로 데이터 분석 기법을 사용하는 주된 이유는 많은 내부 제어 시스템이 심각한 약점을 가지고 있기 때문에 부정 행위를 해결하기 위함이다.예를 들어, 잠재적 사기 사건에 연루된 기업을 적발하기 위해 현재 많은 사법기관에서 채택하고 있는 접근법은 내부고발자로부터 정황증거나 불만을 접수하는 데 있다.[2]결과적으로, 많은 사기 사건들이 적발되지 않고 기소되지 않은 채로 남아 있다.부정 행위에 대한 제어 시스템을 효과적으로 테스트, 탐지, 검증, 수정하고 모니터링하기 위해 기업체 및 조직은 데이터 마이닝, 데이터 매칭, 함수와 같은 소리, 회귀 분석, 클러스터링 분석, 갭 등의 전문 데이터 분석 기법에 의존한다.[3]사기 탐지에 사용되는 기술은 통계 기법과 인공지능의 두 가지 주요 등급으로 분류된다.[4]
통계기법
통계 데이터 분석 기법의 예는 다음과 같다.
- 데이터 사전 처리 기법 탐지, 유효성 검사, 오류 수정 및 누락되거나 잘못된 데이터 채우기
- 평균, 수량, 성능 메트릭, 확률 분포 등과 같은 다양한 통계 매개변수의 계산.예를 들어 평균 통화 기간, 월 평균 통화 수, 청구서 지불 지연 평균을 포함할 수 있다.
- 다양한 매개변수 또는 확률 분포 측면에서 다양한 비즈니스 활동의 모델 및 확률 분포.
- 사용자 프로필 계산 중.
- 시간에 의존하는 데이터의 시계열 분석.[5]
- 데이터 그룹 간의 패턴 및 연관성을 찾기 위한 클러스터링 및 분류.[5]
- 데이터 일치 데이터 일치는 수집된 데이터의 두 집합을 비교하는 데 사용된다.프로세스는 알고리즘이나 프로그램된 루프를 기반으로 수행될 수 있다.서로 데이터 집합을 일치시키거나 복잡한 데이터 유형을 비교하는 중.데이터 매칭은 중복된 레코드를 제거하고 마케팅, 보안 또는 기타 용도를 위해 두 데이터 세트 사이의 링크를 식별하는 데 사용된다.[3]
- 비슷한 소리를 내는 값을 찾기 위해 기능(Function)을 사용하는 것 같다.음성 유사성은 가능한 중복 값 또는 수동으로 입력된 데이터에서 일치하지 않는 철자를 찾는 한 방법이다.'sounds like' 함수는 비교 문자열을 각 문자열에서 첫 번째 글자와 첫 번째 문자 이후의 처음 세 개의 자음을 기준으로 한 4자 미국 사운덱스 코드로 변환한다.[3]
- 회귀 분석을 통해 둘 이상의 관심 변수 사이의 관계를 조사할 수 있다.회귀 분석은 독립 변수와 종속 변수 사이의 관계를 추정한다.이 방법을 사용하면 변수 간의 관계를 이해하고 식별하며 실제 결과를 예측할 수 있다.[3]
- 갭 분석을 사용하여 비즈니스 요구사항이 충족되고 있는지 여부(그렇지 않다면, 성공적으로 충족하기 위해 취해야 할 단계는 무엇인가)를 판단한다.
- 이전에 알려진 모델 및 프로필과 비교하여 트랜잭션 또는 사용자의 동작에서 이상 징후를 탐지하는 알고리즘 일치.허위 경보를 없애고 위험을 추정하며 현재 거래나 사용자의 미래를 예측하는 기법도 필요하다.
일부 법의학 회계사들은 금융 사기 청구를 재구성, 탐지 또는 다른 방법으로 지원하기 위한 전자 데이터의 조달 및 분석인 법의학 분석을 전문으로 한다.법의학 분석의 주요 단계는 데이터 수집, 데이터 준비, 데이터 분석 및 보고다.예를 들어, 법의학적 분석은 구매 중 어떤 것이 개인 용도로 전용되거나 전용되었는지 여부를 평가하기 위해 직원의 구매 카드 활동을 검토하기 위해 사용될 수 있다.
인공지능 기술
사기 탐지는 지식 집약적인 활동이다.사기 감지에 사용되는 주요 AI 기술은 다음과 같다.
- 데이터를 분류, 클러스터링 및 세분화하고 부정 행위와 관련된 패턴을 포함하여 흥미로운 패턴을 나타낼 수 있는 연관성 및 규칙을 데이터에서 자동으로 찾기 위한 데이터 마이닝
- 부정 행위를 탐지하기 위한 전문 지식을 규칙 형태로 인코딩하는 전문가 시스템.
- 대략적인 클래스, 클러스터 또는 의심스러운 동작의 패턴을 자동으로(감독되지 않음) 또는 주어진 입력과 일치시키는 패턴 인식.
- 부정행위의 특성을 자동으로 식별하는 머신러닝 기법
- 분류, 클러스터링, 일반화 및 예측을 독립적으로 생성하기 위한 신경망으로 내부 감사 또는 10-Q와 같은 공식 재무 문서에서 제기된 결론과 비교할 수 있다.[5]
링크 분석, 베이시안 네트워크, 의사결정 이론, 시퀀스 매칭 등의 다른 기술도 사기 감지를 위해 사용된다.[4]시스템 속성 접근법이라고 불리는 새롭고 새로운 기법도 순위 데이터를 이용할 수 있는 곳에 채택되었다.[6]
연구 데이터의 통계적 분석은 데이터 부정 행위가 존재하는지를 판단하는 가장 포괄적인 방법이다.연구청(ORI)에서 정의한 데이터 부정행위에는 조작, 변조, 표절 등이 포함된다.
머신러닝 및 데이터 마이닝
초기 데이터 분석 기법은 양적 및 통계적 데이터 특성을 추출하는 데 중점을 두었다.이러한 기법은 유용한 데이터 해석을 용이하게 하며 데이터 뒤에 있는 프로세스에 대한 더 나은 통찰력을 얻는 데 도움이 될 수 있다.전통적인 데이터 분석 기법은 간접적으로 우리를 지식으로 이끌 수 있지만, 그것은 여전히 인간 분석가들에 의해 만들어진다.[7]
그 이상으로, 데이터 분석 시스템은 상당한 양의 배경 지식을 갖추고, 그 지식과 제공된 데이터를 포함하는 추론 작업을 수행할 수 있어야 한다.[7]이 목표를 달성하기 위한 노력의 일환으로, 연구원들은 기계 학습 분야의 아이디어에 눈을 돌렸다.기계학습과제는 배경지식과 예시(입력)를 지식(출력)으로 바꾸는 것으로 설명할 수 있기 때문에 이것은 자연스러운 아이디어의 원천이다.
데이터 마이닝이 의미 있는 패턴을 발견하게 되면 데이터는 정보로 변한다.새롭고 유효하며 잠재적으로 유용한 정보나 패턴은 단순한 정보가 아니라 지식이다.그 전에는 엄청난 양의 데이터 속에 숨겨져 있었지만 지금은 드러난 지식의 발견에 대해 말한다.
기계학습과 인공지능 솔루션은 '감독'과 '감독되지 않은' 학습의 두 가지 범주로 분류될 수 있다.이러한 방법은 방법에 따라 의심 점수, 규칙 또는 시각적 이상을 산출하기 위해 '보통'으로 행동하는 계정, 고객, 공급자 등을 찾는다.[8]
감독되거나 감독되지 않은 방법을 사용하든 간에, 그 결과는 우리에게 단지 사기 가능성이 있다는 표시만을 제공한다는 것에 주목하라.어떤 스탠드 단독 통계 분석도 특정 물체가 사기물이라는 것을 보장할 수는 없지만, 그들은 매우 높은 정확도로 그것들을 식별할 수 있다.결과적으로, 기계 학습 모델과 인간 분석가 사이의 효과적인 협업이 부정 행위 탐지 애플리케이션의 성공에 필수적이다.[9]
감독 학습
감독되는 학습에서 모든 레코드의 무작위 하위 샘플을 취하여 수동으로 '사기' 또는 '사기'로 분류한다(알고리즘 요건을 충족하기 위해 더 많은 클래스에서 작업을 분해할 수 있다).사기 같은 상대적으로 희귀한 사건들은 충분히 큰 표본 크기를 얻기 위해 초과 표본 추출이 필요할 수 있다.[10]이러한 수동으로 분류된 기록은 감독되는 기계 학습 알고리즘을 훈련하는 데 사용된다.이 훈련 데이터를 사용하여 모델을 구축한 후 알고리즘은 새로운 기록을 사기성 또는 사기성이 없는 것으로 분류할 수 있어야 한다.
감독된 신경망, 퍼지 신경망, 신경망과 규칙의 조합은 광범위하게 탐색되어 이동전화망과 재무제표 사기의 사기를 탐지하는 데 이용되어 왔다.[11][12]
베이시안 학습신경망은 신용카드 부정행위 적발, 통신사기, 자동차청구사기 적발, 의료보험사기 등에 대해 구현된다.[13]
전문가 지식이 통계적 역량과 통합된 하이브리드 지식/통계 기반 시스템은 셀룰러 클론 부정행위를 탐지하기 위한 목적으로 일련의 데이터 마이닝 기술을 사용한다.특히, 고객 거래의 대규모 데이터베이스에서 사기 행위의 지표를 파악하기 위한 규칙 학습 프로그램이 구현된다.[14]
케이힐 외(2000) 통신사기를 탐지하기 위해 부정 통화 데이터를 기반으로 사기 서명을 설계한다.사기에 대한 호출을 획득하기 위해 계정 서명에 따른 확률은 사기 서명에 따른 확률과 비교된다.사기 서명이 순차적으로 업데이트되어 이벤트 중심의 사기 감지가 가능하다.
링크 분석은 다른 접근법을 이해한다.그것은 알려진 사기꾼들을 기록 연계와 소셜 네트워크 방법을 사용하여 다른 개인들과 연관시킨다.[15][16]
이러한 유형의 탐지는 이전에 발생한 것과 유사한 사기 행위와 사람에 의해 분류된 사기 행위만을 탐지할 수 있다.새로운 유형의 사기를 감지하려면 감독되지 않은 기계 학습 알고리즘을 사용해야 할 수 있다.
무감독 학습
이와는 대조적으로, 감독되지 않은 방법은 라벨이 부착된 기록을 사용하지 않는다.
사기 감지와 관련하여 감독되지 않은 학습을 포함한 몇몇 중요한 연구들이 언급되어야 한다.예를 들어, 볼튼과 핸드는[17] 신용카드 계정의 지출 행동에 적용되는 피어 그룹 분석과 브레이크 포인트 분석을 사용한다.피어 그룹 분석은 이전에 유사했던 개체와는 다른 방식으로 동작하기 시작하는 개별 개체를 탐지한다.행동 사기 탐지를 위해 Bolton과 Hand가[17] 개발한 또 다른 도구는 Break Point Analysis이다.피어 그룹 분석과 달리 브레이크 포인트 분석은 계정 수준에서 작동한다.중단점은 특정 계정에 대한 비정상적인 행동이 감지되는 관찰이다.이 두 가지 도구는 신용카드 계좌의 지출 행태에 적용된다.신용 카드 부정 행위 감지를 위한 감독되지 않은 방법들과 감독된 방법들이 결합되어 있다.[18]
사용 가능한 데이터셋
기존 부정 행위 탐지 방법의 검증에 대한 주요 제한 사항은 공개 데이터셋의 부족이다.[19]몇 가지 예시 중 하나는 ULB 머신러닝 그룹에서 이용할 수 있도록 만든 신용카드 부정 행위 탐지 데이터[20] 세트다.[21]
참고 항목
참조
- ^ Posted by Roman Chuprina on April 14, 2020 at 1:30am; Blog, View. "The In-depth 2020 Guide to E-commerce Fraud Detection". www.datasciencecentral.com. Retrieved 2020-05-24.
- ^ Velasco, Rafael B.; Carpanese, Igor; Interian, Ruben; Paulo Neto, Octávio C. G.; Ribeiro, Celso C. (2020-05-28). "A decision support system for fraud detection in public procurement". International Transactions in Operational Research. 28: 27–47. doi:10.1111/itor.12811. ISSN 0969-6016.
- ^ a b c d 볼튼, R. 그리고 핸드, D. (2002)통계적 부정 행위 탐지: 평론.통계과학 17(3), 페이지 235-255
- ^ a b G. K. Palshikar, The Hidden Truth – Frauds and That Control: A Critical Application for Business Intelligence, Intelligent Enterprise, vol. 5, no. 9, 2002년 5월 28일, 페이지 46–51.
- ^ a b c Al-Khatib, Adnan M. (2012). "Electronic Payment Fraud Detection Techniques". World of Computer Science and Information Technology Journal. 2. S2CID 214778396.
- ^ Vani, G. K. (February 2018). "How to detect data collection fraud using System properties approach". Multilogic in Science. VII (SPECIAL ISSUE ICAAASTSD-2018). ISSN 2277-7601. Retrieved February 2, 2019.
- ^ a b 미할스키, R. S., I. 브라트코, M. 쿠바트(1998년).머신러닝 및 데이터 마이닝 – 방법 및 응용 프로그램.존 와일리 & 선즈 주식회사
- ^ 볼튼, R. & Hand, D. (2002)통계적 부정 행위 탐지: 검토(토론 포함)통계학 17(3): 235–255.
- ^ Tax, N.&d Vries, K.&d Jong, M. & Dosoula, N. & van den Akker, B. & Smith, J. & Thuong, O. & Bernardi, L. Machine Learning for in E-Commercommerce: 연구 어젠다.KDD 국제 보안 기술 워크숍 진행(ML hat)스프링거, 참, 2021년
- ^ 달 포졸로, A. & Caelen, O. & Le Borgne, Y. & Waterschoot, S. & Bontempi, G. (2014)실무자의 관점에서 신용카드 부정행위 적발에 대한 교훈을 얻었다.41: 10 4915–4988 애플리케이션을 지원하는 전문가 시스템.
- ^ 그린, B. & Choi, J.(1997)신경망 기술을 통한 경영사기 위험도 평가감사 16(1): 14–28.
- ^ 에스테베즈, P, C 홀드, C. 홀드, C.페레즈(2006년).퍼지 규칙과 신경망을 이용한 통신에서의 가입 사기 방지.애플리케이션 31, 337–344가 설치된 Expert Systems with Applications 31, 337–344.
- ^ Bhowmik, Rekha Bhowmik. "35 Data Mining Techniques in Fraud Detection". Journal of Digital Forensics, Security and Law. University of Texas at Dallas.
- ^ 포셋, T. (1997년).부정 행위 탐지 및 위험 관리에 대한 AI 접근 방법: 1997년 AAAI 워크숍의 논문기술 보고서 WS-97-07.AAAI 프레스.
- ^ Phua, C.; Lee, V.; Smith-Miles, K.; Gayler, R. (2005). "A Comprehensive Survey of Data Mining-based Fraud Detection Research". arXiv:1009.6119. doi:10.1016/j.chb.2012.01.002. S2CID 50458504.
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ Cortes, C. & Pregibon, D. (2001)데이터 스트림에 대한 서명 기반 방법.데이터 마이닝 및 지식 검색 5: 167–182.
- ^ a b 볼튼, R. & Hand, D. (2001)부정 행위 탐지를 위한 감독되지 않은 프로파일링 방법.Credit Scoring and Credit Control VII.
- ^ Carcillo, Fabrizio; Le Borgne, Yann-Aël; Caelen, Olivier; Kessaci, Yacine; Oblé, Frédéric; Bontempi, Gianluca (16 May 2019). "Combining unsupervised and supervised learning in credit card fraud detection". Information Sciences. 557: 317–331. doi:10.1016/j.ins.2019.05.042. ISSN 0020-0255.
- ^ Le Borgne, Yann-Aël; Bontempi, Gianluca (2021). "Machine Learning for Credit Card Fraud Detection - Practical Handbook". Retrieved 26 April 2021.
- ^ "Credit Card Fraud Detection". kaggle.com.
- ^ "ULB Machine Learning Group". mlg.ulb.ac.be.