다크 데이터
Dark data다크 데이터는 다양한 컴퓨터 네트워크 운영을 통해 획득되지만 통찰력을 얻거나 의사결정을 위해 어떤 방식으로도 사용되지 않는 데이터다.[1][2] 조직의 데이터 수집 능력은 데이터를 분석할 수 있는 처리량을 초과할 수 있다. 어떤 경우에는 기관이 데이터가 수집되고 있다는 사실조차 알지 못할 수 있다.[3] IBM은 센서와 아날로그-디지털 변환에 의해 생성된 데이터의 약 90%가 결코 사용되지 않을 것으로 추정한다.[4]
산업적 맥락에서, 다크 데이터는 센서와 텔레매틱스에 의해 수집된 정보를 포함할 수 있다.[5]
조직은 여러 가지 이유로 다크 데이터를 보유하고 있으며, 대부분의 기업은 데이터의 1%만을 분석하고 있는 것으로 추정된다.[6] 종종 그것은 규제 준수와[7] 기록 유지를 위해 저장된다.[1] 일부 조직은 정보를 처리하기 위해 더 나은 분석 및 비즈니스 인텔리전스 기술을 획득한 후에 다크 데이터가 미래에 유용할 수 있다고 믿는다.[3] 저장은 비용이 저렴하기 때문에 데이터를 저장하는 것은 쉽다. 그러나 데이터 저장과 보안은 대개 잠재적 수익보다 더 큰 비용(또는 심지어 위험)을 수반한다.[1]
런던 임페리얼 칼리지의 데이비드 핸드 교수도 이 용어를 사용하여 누락된 데이터를 참조한다: 다크 데이터는 당신이 가지고 있지 않은 데이터다.[8]
분석
많은 어두운 데이터는 구조화되지 않은 것으로, 이것은 정보가 분류하기 어려울 수 있는 형식으로 되어 있고, 컴퓨터가 읽고 따라서 분석된다는 것을 의미한다. 종종 비즈니스가 다크 데이터를 분석하지 않는 이유는 필요한 리소스의 양과 해당 데이터를 분석하는 것이 어렵기 때문이다. 컴퓨터 위클리(Computer Weekly)에 따르면 조직의 60%는 자체적인 비즈니스 인텔리전스 보고 기능이 '부적절하다'고 생각하고 있으며, 65%는 '조직화된 콘텐츠 관리 접근법'을 갖고 있다고 한다.[9]
관련성
유용한 데이터는 충분히 빠르게 처리되지 않기 때문에 관련성이 없어지면 암흑 데이터가 될 수 있다. 이것을 "실시간 흐르는 데이터"에서 "흔히 볼 수 있는 통찰력"이라고 한다. 예를 들어, 고객의 지리적 위치가 기업에 알려지면, 기업은 그 위치를 기준으로 제안을 할 수 있지만, 만약 이 데이터가 즉시 처리되지 않는다면, 향후는 무관할 수 있다. IBM에 따르면 데이터의 약 60%가 즉시 가치를 잃는다.[4]
저장
뉴욕타임스에 따르면 데이터 센터에서 사용하는 에너지의 90%가 낭비된다.[10] 데이터가 저장되지 않으면 에너지 비용을 절감할 수 있었다. 더욱이 정보의 활용도가 낮기 때문에 기회를 놓치는 것과 관련된 비용이 있다. 데이먼슨에 따르면, "EMEA 조직의 스토리지 환경은 54%의 다크 데이터, 32%의 중복 데이터, 32%의 중복 데이터, 32%의 구식 데이터 및 14%의 비즈니스 크리티컬 데이터로 구성되어 있다. 2020년까지 이를 통해 최대 8,910억 달러의 스토리지 및 관리 비용을 절감할 수 있으며 그렇지 않을 경우 이를 피할 수 있다."[11]
다크 데이터의 지속적인 저장은 특히 이 데이터가 민감한 경우 조직을 위험에 빠뜨릴 수 있다. 균열의 경우 이는 심각한 파장을 초래할 수 있다. 이것들은 재정적이고 합법적일 수 있으며 조직의 평판을 심각하게 해칠 수 있다. 예를 들어, 고객에 대한 개인 기록의 위반은 민감한 정보를 도용하는 결과를 초래할 수 있으며, 이로 인해 신분 도용이 발생할 수 있다. 또 다른 예는 예를 들어 연구개발과 관련된 회사 자체의 민감한 정보의 침해일 수 있다. 이러한 위험은 이 데이터가 조직에 유용한지 평가 및 감사하여 완화될 수 있으며, 강력한 암호화 및 보안을[12] 채택하고 마지막으로 폐기하기로 결정되면 되돌릴 수 없는 방식으로 폐기해야 한다.[13]
미래
데이터 분석을 위한 고급 컴퓨팅 시스템이 구축될수록 다크 데이터의 가치가 높아지는 것이 일반적이다. "데이터와 분석이 현대 산업혁명의 토대가 될 것"[5]이라는 지적이 제기됐다. 물론 이를 처리할 자원이 부족해 현재 '암흑 데이터'로 여겨지는 데이터도 여기에 포함된다. 수집되고 있는 이 모든 데이터는 미래에 최대한의 생산성과 조직의 수요에 부응하는 능력을 가져오는 데 사용될 수 있다. 기술 발전은 데이투미즈, 베리타스 또는 루시드웍스와 같은 젊고 혁신적인 회사들 덕분에 이 어두운 데이터를 값싸게 활용하는 데 도움을 주고 있다. 더욱이 많은 조직들은 현재 다크 데이터의 가치를 깨닫지 못하고 있다. 예를 들어 의료 기관과 교육 기관에서는 "소비자와 금융 서비스가 목표 인구를 추구하는 방식으로 학생과 환자에 대한 잠재력"이 크게 창출될 수 있는 대량의 데이터를 다루고 있다.[14]
참조
- ^ a b c "Dark Data". Gartner.
- ^ Tittel, Ed (24 September 2014). "The Dangers of Dark Data and How to Minimize Your Exposure". CIO. Archived from the original on 15 January 2019. Retrieved 15 September 2015.
- ^ a b Brantley, Bill (2015-06-17). "The API Briefing: the Challenge of Government's Dark Data". Digitalgov.gov.
- ^ a b Johnson, Heather (2015-10-30). "Digging up dark data: What puts IBM at the forefront of insight economy". SiliconANGLE. Retrieved 2015-11-03.
- ^ a b Dennies, Paul (February 19, 2015). "TeradataVoice: Factories Of The Future: The Value Of Dark Data". Forbes. Archived from the original on 2015-02-22.
- ^ Shahzad, M. Ahmad (January 3, 2017). "The big data challenge of transformation for the manufacturing industry". IBM Big Data & Analytics Hub.
- ^ "Are you using your dark data effectively". Archived from the original on 2017-01-16. Retrieved 2017-01-12.
- ^ David Hand (18 November 2020). "10-Minute Talks: Dark data". The British Academy. The British Academy. Retrieved 2 March 2021.
- ^ Miles, Doug (27 December 2013). "Dark data could halt big data's path to success". ComputerWeekly. Retrieved 2015-11-03.
- ^ Glanz, James (2012-09-22). "Data Centers Waste Vast Amounts of Energy, Belying Industry Image". The New York Times. Retrieved 2015-11-02.
- ^ Hernandez, Pedro (October 30, 2015). "Enterprises are Hoarding 'Dark' Data: Veritas". Datamation. Retrieved 2015-11-04.
- ^ "DarkShield Uses Machine Learning to Find and Mask PII". IRI. Retrieved 2019-01-14.
- ^ Tittel, Ed (2014-09-24). "The Dangers of Dark Data and How to Minimize Your Exposure". CIO. Archived from the original on 2019-01-15. Retrieved 2015-11-02.
- ^ Prag, Crystal (2014-09-30). "Leveraging Dark Data: Q&A with Melissa McCormack". The Machine Learning Times. Retrieved 2015-11-04.