탈식별
De-identification
탈식별은 누군가의 신원이 노출되는 것을 막기 위해 사용되는 과정이다. 예를 들어, 인간 주제 연구 중에 생성된 데이터는 연구 참여자의 프라이버시를 보존하기 위해 식별되지 않을 수 있다. 생물학적 데이터는 환자 개인 정보 보호법을 정의하고 규정하는 HIPAA 규정을 준수하기 위해 식별되지 않을 수 있다. [1]
식별에 관한 메타데이터나 일반 데이터에 적용할 때, 그 프로세스를 데이터 익명화라고도 한다. 일반적인 전략은 개인 이름 등 개인 식별자를 삭제하거나 가리는 것, 생년월일과 같은 준 식별자를 억압하거나 일반화하는 것이다. 개인을 식별하기 위해 식별되지 않은 데이터를 사용하는 역 과정을 데이터 재식별이라고 한다. 성공적인 재식별은[2][3][4][5] 탈식별의 효과성에 의문을 제기한다. 14개의 뚜렷한 재식별 공격에 대한 체계적 검토 결과, "기존 표준에 따라 식별이 해제되지 않은 데이터에 대한 소규모 연구가 지배하는 높은 재식별 비율[…]"이 발견되었다.[6]
데이터 개인 정보 보호에 대한 주요 접근방식 중 하나로 식별 해제를 채택하고 있다.[7] 통신, 멀티미디어, 생체 인식, 빅데이터, 클라우드 컴퓨팅, 데이터 마이닝, 인터넷, 소셜 네트워크, 오디오-비디오 감시 분야에서 일반적으로 사용된다.[8]
예
설문조사를 설계할 때
인구 조사와 같은 조사가 실시될 때, 그들은 특정 그룹의 사람들에 대한 정보를 수집한다. 연구자들은 참여를 장려하고 조사 응답자의 프라이버시를 보호하기 위해 설문조사에 참여할 때 어떤 참가자의 개별 응답과 발표된 데이터를 일치시킬 수 없는 방식으로 설문조사를 설계하려고 시도한다.
정보 사용 전
온라인 쇼핑 웹사이트가 이용자들의 선호도와 쇼핑 습관을 알고자 할 때, 그것은 그것의 데이터베이스에서 고객의 데이터를 검색하고 그들을 분석하기로 결정한다. 개인 데이터 정보에는 고객이 계정을 만들 때 직접 수집한 개인 식별자가 포함된다. 이 웹사이트는 고객의 사생활 침해 방지를 위해 데이터 기록을 분석하기 전에 신원확인 기법을 통해 데이터를 사전 취급할 필요가 있다.
익명화
익명화란 어떤 조건에서도 연구 주최자가 향후의 재식별을 방지하기 위해 연구의 데이터 기여자의 신원으로부터 데이터 세트를 불가역적으로 분리하는 것을 말한다.[9][10] 또한 식별 해제에는 특정 상황에서만 신뢰할 수 있는 당사자가 다시 연결할 수 있는 식별 정보의 보존이 포함될 수 있다.[9][10][11] 기술계에서는 신뢰할 수 있는 당사자라도 다시 연결할 수 있는 데이터를 과연 비식별화라고 봐야 하는지에 대한 논쟁이 벌어지고 있다.
기술
비식별화 전략은 개인 식별자를 가려내고 준식별자를 일반화하는 것이다. 가명화는 개인 식별자를 데이터 기록에서 가리기 위해 사용되는 주요 기법이며, k-익명화는 일반적으로 준 식별자를 일반화하기 위해 채택된다.
가명화
가명화는 실명을 임시 ID로 대체하여 실시한다. 그것은 개인 식별자를 삭제하거나 가려서 개인 식별자를 식별하지 못하게 한다. 이 방법은 기록이 갱신되더라도 시간이 지남에 따라 개인의 기록을 추적할 수 있게 한다. 그러나 데이터 기록에서 특정 속성의 특정 조합이 개인을 간접적으로 식별하는 경우에는 개인을 식별하는 것을 막을 수 있다. [12]
k자형화
k-nonymization은 개인의 정체성을 준식별자(QI)로 간접적으로 지적하는 속성을 정의하고, 적어도 k명이 동일한 QI 값의 조합을 갖도록 하여 데이터를 처리한다.[12] QI 값은 특정 표준에 따라 처리한다. 예를 들어 k-nonymization은 레코드의 일부 원본 데이터를 새로운 범위 값으로 대체하고 일부 값을 변경하지 않고 유지한다. 새로운 QI 값의 조합은 개인을 식별하지 못하게 하고 또한 데이터 기록의 파괴를 방지한다.
적용들
탈식별화에 대한 연구는 주로 건강정보 보호를 위해 추진된다.[13] 일부 도서관은 독자들의 사생활을 보호하기 위해 의료 산업에서 사용되는 방법을 채택했다.[13]
빅데이터에서 탈식별화는 개인과 조직이 폭넓게 채택하고 있다.[8] 소셜미디어, 전자상거래, 빅데이터의 발달로 기업이나 제3자 기관에서 사용자의 개인 데이터를 수집해 개인 용도로 분석하는 경우 데이터 프라이버시를 위해 탈식별화가 필요한 경우가 많다.
스마트 시티의 경우 주민, 근로자 및 방문객의 프라이버시를 보호하기 위해 식별 해제가 필요할 수 있다. 엄격한 규제가 없다면 센서가 여전히 동의 없이 정보를 수집할 수 있기 때문에 식별을 해제하는 것은 어려울 수 있다.[14]
한계
사람이 유전학 연구에 참여할 때마다 생물학적 표본을 기증하면 대량의 개인 맞춤형 데이터가 생성되는 경우가 많다. 그러한 데이터는 고유하게 식별하기 어렵다.[15]
유전자 데이터의 익명화는 특히 생물학적 요법에서의 유전자형 정보의 엄청난 양,[15] 표본이 종종 의학사와의 관계,[16] 그리고 데이터 마이닝을 위한 현대 생물정보학 도구의 출현 때문에 어렵다.[16] 유전자형 데이터 집합의 집합 집합에 있는 개인에 대한 데이터가 시료 기증자의 신원과 연관될 수 있다는 데 대한 데모가 있었다.[17]
일부 연구자들은 유전학 연구의 참가자들에게 익명성을 유지할 수 있다고 약속하는 것은 합리적이지 않다고 제안했지만, 대신에 그러한 참가자들에게 식별을 해제하는 과정에서 암호화된 식별자를 사용하는 것의 한계를 가르쳐야 한다.[10]
미국의 신원확인법
2014년 5월, 미국 대통령 과학기술 자문 위원회는 "추가된 안전장치로 유용한 것"이지만 "정책의 유용한 근거"는 아닌 "단기적인 미래 재식별 방법에 대해 견고하지 않다"[18]고 밝혔다.
HIPAA 프라이버시 규칙은 환자의 동의 없이 의료 데이터를 책임감 있게 사용하고 공개할 수 있는 메커니즘을 제공한다. 이러한 메커니즘은 두 가지 HIPAA 인증 표준, 즉 Safe Harbor와 Expert Decision Method에 초점을 맞춘다. 세이프 하버는 특정 환자 식별자(예: 이름, 전화번호, 이메일 주소 등)의 제거에 의존하는 반면, 전문가 결정 방법은 일반적으로 인정된 통계 및 과학적 원칙과 방법에 대한 지식과 경험을 요구하여 개별적으로 식별할 수 없는 정보를 제공하도록 한다.[19]
세이프 하버
세이프 하버 방법은 목록 접근방식을 사용하여 식별을 해제하며 다음 두 가지 요건을 갖는다.
- 데이터에서 18개 요소의 제거 또는 일반화.
- 적용대상기업이나 사업관계자는 데이터의 잔여정보가 개인 식별을 위해 단독으로 또는 다른 정보와 조합하여 사용될 수 있다는 사실을 실제로 알지 못한다. Safe Harbor는 매우 규범적인 탈식별 접근법이다. 이 방법에서는 모든 날짜를 연도로 일반화하고 우편번호를 3자리로 줄여야 한다. 문맥에 관계없이 데이터에 동일한 접근법이 사용된다. 급성 호흡기 질환의 계절적 변동에 대한 데이터를 분석하고자 하는 신뢰할 수 있는 연구자와 정보를 공유하여 입원 월이 필요하더라도 이 정보는 제공할 수 없으며 입원 연도만 유지된다.
전문가 결정
전문가 결정(Expert Decisioning)은 연구의 현행 표준과 모범 사례를 적용하는 위험 기반 탈식별 접근방식을 취하여 보호 보건 정보로부터 사람을 식별할 수 있는 가능성을 결정한다. 이 방법은 일반적으로 인정된 통계 및 과학적 원칙과 방법에 대한 적절한 지식과 경험을 가진 사람이 정보를 개별적으로 식별할 수 없도록 해야 한다. 여기에는 다음이 필요하다.
- 정보의 주체가 되는 개인을 식별하기 위해 예상 수취인이 단독으로 또는 합리적으로 이용할 수 있는 다른 정보와 결합하여 사용할 수 있는 위험이 매우 작다는 것.
- 그러한 결정을 정당화하는 분석 방법과 결과를 문서화한다.
의식에 관한 연구
전자 건강 기록 데이터의 연구에 대한 핵심 법은 HIPAA 개인 정보 보호 규칙이다. 이 법률은 연구를 위해 사망한 피실험자의 전자 건강 기록을 사용할 수 있도록 허용한다(HIPAA 개인 정보 보호 규칙(제164.512(i)(1)절(iii)).[20]
참고 항목
참조
- ^ Rights (OCR), Office for Civil (2012-09-07). "Methods for De-identification of PHI". HHS.gov. Retrieved 2020-11-08.
- ^ Sweeney, L. (2000). "Simple Demographics Often Identify People Uniquely". Data Privacy Working Paper. 3.
- ^ de Montjoye, Y.-A. (2013). "Unique in the crowd: The privacy bounds of human mobility". Scientific Reports. 3: 1376. Bibcode:2013NatSR...3E1376D. doi:10.1038/srep01376. PMC 3607247. PMID 23524645.
- ^ de Montjoye, Y.-A.; Radaelli, L.; Singh, V. K.; Pentland, A. S. (29 January 2015). "Unique in the shopping mall: On the reidentifiability of credit card metadata". Science. 347 (6221): 536–539. Bibcode:2015Sci...347..536D. doi:10.1126/science.1256297. PMID 25635097.
- ^ Narayanan, A. (2006). "How to break anonymity of the netflix prize dataset". arXiv:cs/0610105.
- ^ El Emam, Khaled (2011). "A Systematic Review of Re-Identification Attacks on Health Data". PLOS ONE. 10 (4): e28071. Bibcode:2011PLoSO...628071E. doi:10.1371/journal.pone.0028071. PMC 3229505. PMID 22164229.
- ^ Simson., Garfinkel. De-identification of personal information : recommendation for transitioning the use of cryptographic algorithms and key lengths. OCLC 933741839.
- ^ Jump up to: a b Ribaric, Slobodan; Ariyaeeinia, Aladdin; Pavesic, Nikola (September 2016). "De-identification for privacy protection in multimedia content: A survey". Signal Processing: Image Communication. 47: 131–151. doi:10.1016/j.image.2016.05.020.
- ^ Jump up to: a b Godard, B. A.; Schmidtke, J. R.; Cassiman, J. J.; Aymé, S. G. N. (2003). "Data storage and DNA banking for biomedical research: Informed consent, confidentiality, quality issues, ownership, return of benefits. A professional perspective". European Journal of Human Genetics. 11: S88–122. doi:10.1038/sj.ejhg.5201114. PMID 14718939.
- ^ Jump up to: a b c Fullerton, S. M.; Anderson, N. R.; Guzauskas, G.; Freeman, D.; Fryer-Edwards, K. (2010). "Meeting the Governance Challenges of Next-Generation Biorepository Research". Science Translational Medicine. 2 (15): 15cm3. doi:10.1126/scitranslmed.3000361. PMC 3038212. PMID 20371468.
- ^ McMurry, AJ; Gilbert, CA; Reis, BY; Chueh, HC; Kohane, IS; Mandl, KD (2007). "A self-scaling, distributed information architecture for public health, research, and clinical care". J Am Med Inform Assoc. 14 (4): 527–33. doi:10.1197/jamia.M2371. PMC 2244902. PMID 17460129.
- ^ Jump up to: a b Ito, Koichi; Kogure, Jun; Shimoyama, Takeshi; Tsuda, Hiroshi (2016). "De-identification and Encryption Technologies to Protect Personal Information" (PDF). Fujitsu Scientific and Technical Journal. 52 (3): 28–36.
- ^ Jump up to: a b Nicholson, S.; Smith, C. A. (2006). "Using lessons from health care to protect the privacy of library users: Guidelines for the de-identification of library data based on HIPAA" (PDF). Proceedings of the American Society for Information Science and Technology. 42: n/a. doi:10.1002/meet.1450420106.
- ^ Coop, Alex. "Sidewalk Labs decision to offload tough decisions on privacy to third party is wrong, says its former consultant". IT World Canada. Retrieved 27 June 2019.
- ^ Jump up to: a b McGuire, A. L.; Gibbs, R. A. (2006). "GENETICS: No Longer De-Identified". Science. 312 (5772): 370–371. doi:10.1126/science.1125339. PMID 16627725.
- ^ Jump up to: a b Thorisson, G. A.; Muilu, J.; Brookes, A. J. (2009). "Genotype–phenotype databases: Challenges and solutions for the post-genomic era". Nature Reviews Genetics. 10 (1): 9–18. doi:10.1038/nrg2483. hdl:2381/4584. PMID 19065136. S2CID 5964522.
- ^ Homer, N.; Szelinger, S.; Redman, M.; Duggan, D.; Tembe, W.; Muehling, J.; Pearson, J. V.; Stephan, D. A.; Nelson, S. F.; Craig, D. W. (2008). Visscher, Peter M. (ed.). "Resolving Individuals Contributing Trace Amounts of DNA to Highly Complex Mixtures Using High-Density SNP Genotyping Microarrays". PLOS Genetics. 4 (8): e1000167. doi:10.1371/journal.pgen.1000167. PMC 2516199. PMID 18769715.
- ^ PCAST. "Report to the President - Big Data and Privacy: A technological perspective" (PDF). Office of Science and Technology Policy. Retrieved 28 March 2016 – via National Archives.
- ^ "De-Identification 201". Privacy Analytics. 2015.
- ^ 45 CFR 164.512)
외부 링크
- Simson L. Garfinkel (2015-12-16). "NISTIR 8053, De-Identification of Personal Information" (PDF). NIST. Retrieved 2016-01-03.
- 미국 정부 식별 해제 표준에 대한 교육 시리즈
- 보호된 건강정보의 식별해제 방법에 관한 지침
- Ohm, Paul (2010). "Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization" (PDF). UCLA Law Review. 57: 1701–77.
- Padilla-López, José Ramón; Chaaraoui, Alexandros Andre; Flórez-Revuelta, Francisco (June 2015). "Visual privacy protection methods: A survey" (PDF). Expert Systems with Applications. 42 (9): 4177–4195. doi:10.1016/j.eswa.2015.01.041. hdl:10045/44523.
- Chaaraoui, Alexandros; Padilla-López, José; Ferrández-Pastor, Francisco; Nieto-Hidalgo, Mario; Flórez-Revuelta, Francisco (20 May 2014). "A Vision-Based System for Intelligent Monitoring: Human Behaviour Analysis and Privacy by Context". Sensors. 14 (5): 8895–8925. Bibcode:2014Senso..14.8895C. doi:10.3390/s140508895. PMC 4063058. PMID 24854209.