데이터플라이 알고리즘
Datafly algorithm데이터플라이 알고리즘은 의료 데이터에서 익명성을 제공하기 위한 알고리즘이다. 이 알고리즘은 1997-98년 라타냐 아벳 스위니에 의해 개발되었다.[1][2] 익명화는 데이터에서 발견된 많은 세부사항을 잃어버리지 않고 정보를 적절하게 자동으로 일반화, 대체, 삽입 및 제거함으로써 달성된다. 이 방법은 기관 내 역할 기반 보안과 기관으로부터 데이터를 내보내는 배치 모드에서 즉시 사용할 수 있다. 조직은 결과 데이터가 익명으로 보이기 때문에 환자의 기밀성이 유지된다는 잘못된 믿음에서 이름과 같은 모든 명시적 식별자가 제거된 의료 데이터를 공개하고 수신한다. 그러나 나머지 데이터는 다른 데이터베이스와 연계 또는 매칭하거나 데이터베이스 자체의 분야와 기록에서 발견되는 고유한 특성을 검토하여 개인을 재식별하는 데 사용할 수 있다.
데이터플라이 알고리즘은 지나치게 일반화함으로써 익명화를 이루려 한다는 비판을 받아왔다. 알고리즘은 구별되는 값의 수가 가장 많은 속성을 먼저 일반화할 값으로 선택한다.[3]
코어 알고리즘
Datafly 알고리즘의 개요는 다음과 같다.[4]
입력: 개인 테이블 PT, 준식별자 QI = (A1n, ..., A ), k-익명성 제약 k; 도메인 일반화 계층 구조, 여기서Ai i = 1, ...n, 동반 함수 fAi, 손실 등은 억제할 수 있는 튜플의 백분율 제한이다. PT[id]는 각 튜플에 대한 고유 식별자 또는 키 집합이다.
출력: K-익명성을 강제하는 PT[QI] 일반화 MGT
가정: PT ≤ k 및 손실 * PT = k
알고리즘 데이터플라이:
// PT에서 준 식별자에 걸친 고유한 값의 시퀀스를 포함하는 주파수 목록 작성
// 각 시퀀스의 발생 횟수와 함께.
- 1. freq를 처음에는 원소가 없는 확장 가능하고 접을 수 있는 벡터가 되게 한다. 각 원소는 형태(QI, 주파수, SID )로 되어 있는데 여기서 SIDi = { ID : [ t[id] id [id] [ t[id] = IDi }, 그리고 주파수 = SID. 따라서 freq도 테이블 오버(QI, 주파수, SID)로서 접근할 수 있다.
- 2. pos {\} 0, 총gets 0으로 설정
- 3. 총 PT가 하는 동안
- 3.1 freq[pos] ( t[QI], occurs, SID ) where t[QI] ∈ [QI], ( t[ QI ],__, ___ ) freq; occurs = PT - PT[QI] – {t[QI]} ; and, SID = { idi : ∃ t[id] PT[id] ⇒ t[id] = idi }
- 3.2 pos pos + 1, 총gets {\} total + 발생
- // 고유값 수가 가장 많은 속성을 일반화하여 솔루션을 만든다.
- // 그리고 허용된 튜플 수 이하로 억제.
- 4. underk \ \ \ 0으로 두십시오.
- 5. pos \property } 1 ~ freq do.
- 5.1 ( __, count ) freq[pos]
- 5.2 만약 < k를 세면 그렇게 한다.
- 5.2.1 belowk} belowk + count
- 6. underk > k일 경우: // 참고. 손실 * PT = k.
- 6.1 freq 일반화(freq)
- 6.2 4단계로 이동
- 7. 그렇지 않으면 하다
- // 주장: freq에서 억제할 튜플의 수는 ≤ loss * PT이다.
- 7.1 freq 억제(freq, underk )
- 7.2 MGT 재구성(freq)
- 8. 반송 MGT.
참조
- ^ Latanya Sweeney. "Datafly: a system for providing anonymity in medical data". Retrieved 19 January 2014.
- ^ L. Sweeney, Datafly: 의료 데이터에서 익명성을 제공하는 시스템. 데이터베이스 보안, XI: 현황 및 전망, T. Lin 및 S. 1998년 암스테르담, 엘스비에 사이언스, 첸(eds),[1]
- ^ Li Xiong. "Data Anonymization - Generalization Algorithms" (PDF). Retrieved 19 January 2014.
- ^ Latanya Sweeney. Computational Disclosure Control A Primer on Data Privacy Protection. MIT. p. 113. hdl:1721.1/8589.