라벨이 붙은 데이터

Labeled data

레이블이 지정된 데이터는 하나 이상의 레이블로 태그가 지정된 표본 그룹입니다.라벨링은 일반적으로 라벨이 부착되지 않은 데이터 세트를 취합하여 각 데이터 조각을 정보 태그로 보강합니다.예를 들어, 데이터 라벨은 사진에 말이나 소가 포함되어 있는지 여부, 오디오 기록에서 어떤 말이 나왔는지, 비디오에서 어떤 행동을 하고 있는지, 뉴스 기사의 주제가 무엇인지, 트윗의 전체적인 정서가 무엇인지, 또는 X-ray의 점이 종양인지 여부를 나타낼 수 있습니다.

라벨은 라벨이 부착되지 않은 데이터의 특정 부분에 대해 판단하도록 사용자에게 요청함으로써 얻을 수 있다.레이블이 지정된 데이터는 레이블이 지정되지 않은 원시 데이터보다 얻는 데 훨씬 더 비쌉니다.

크라우드소싱된 레이블 데이터

2006년 스탠포드 인간중심 AI연구소의 공동 소장인 Fei-Fei Li는 훈련 데이터를 대폭 확대함으로써 이미지 인식을 위한 인공지능 모델과 알고리즘을 개선하는 데 착수했다.연구원들은 월드 와이드 웹에서 수백만 개의 이미지를 다운로드 받았고 대학생들로 구성된 팀은 각각의 이미지에 사물에 대한 라벨을 붙이기 시작했다.2007년, Li씨는, 디지털 피스 워크의 온라인 장터인 Amazon Mechanical Turk에 데이터 라벨링 작업을 아웃소싱 했습니다.49,000명 이상의 근로자가 라벨링한 320만 개의 이미지는 [1]객체 인식 개요를 위한 가장 큰 손으로 라벨링된 데이터베이스 중 하나인 ImageNet의 기반을 형성했다.

자동 데이터 라벨 표시

라벨이 붙은 데이터 세트를 취득한 후, 머신 러닝 모델을 데이터에 적용하여 라벨이 없는 새로운 데이터를 모델에 제시하고 라벨이 없는 데이터의 일부를 추측 [2]또는 예측할 수 있다.

데이터 중심 편향

알고리즘의 의사결정은 프로그래머 주도 편향과 데이터 주도 편향의 영향을 받습니다.기계 학습 알고리즘이 합법적임에도 불구하고, 라벨이 붙은 편향 데이터에 의존하는 훈련 데이터는 예측 모델에서 편견과 누락이 발생할 것이다.특정 기계 학습 알고리즘을 훈련하는 데 사용된 라벨링 데이터는 결과를 [3]편향시키지 않기 위해 통계적으로 대표적인 샘플이어야 한다.얼굴 인식 시스템을 훈련시키는 데 사용할 수 있는 레이블링된 데이터가 모집단을 대표하지 않았기 때문에 레이블링된 데이터에서 덜 표현된 그룹은 나중에 종종 잘못 분류된다.2018년 Joy BuolamwiniTimnit Gebru연구에 따르면 얼굴 인식 알고리즘 훈련에 사용된 두 개의 얼굴 분석 데이터 세트인 IJB-A와 Adience는 각각 [4]79.6%, 86.2%의 피부가 밝은 인간으로 구성되어 있습니다.

레퍼런스

  1. ^ Mary L. Gray & Siddharth Suri (2019). Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. Houghton Mifflin Harcourt. p. 7. ISBN 9781328566287.{{cite book}}: CS1 maint: 작성자 파라미터 사용(링크)
  2. ^ 존슨, 레이프Stack Overflow, 2013년 10월 4일. "라벨이 부착된 데이터와 라벨이 없는 데이터의 차이점은 무엇입니까?"2017년 5월 13일 취득. 이 문서에는 CC BY-SA 3.0 라이선스로 이용할 수 있는lmjohns3의 텍스트가 포함되어 있습니다.
  3. ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. p. 64. ISBN 9789231003639.{{cite book}}: CS1 maint: 작성자 파라미터 사용(링크)
  4. ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. p. 66. ISBN 9789231003639.{{cite book}}: CS1 maint: 작성자 파라미터 사용(링크)