데이터 편집

Data editing

데이터 편집은 수집된 조사 데이터의 검토와 조정을 포함하는 프로세스로 정의된다. 데이터 편집은 이 글의 뒷부분의 방법을 사용하여 일관되지 않은 데이터를 수정함으로써 데이터 세트의 명확한 분석을 유도하고 잠재적 편향을 감소시키는 지침을 정의하는 데 도움이 된다. [1] 수집된 데이터의 품질을 제어하는 것이 목적이다.[2] 데이터 편집은 컴퓨터의 지원이나 둘 다의 조합으로 수동으로 수행할 수 있다.[3]

편집 방법

편집방법은 데이터의 오류를 검출하고 처리하는 데 사용되는 절차와 프로세스의 범위를 말한다. 데이터 편집은 생성된 통계 데이터의 품질을 향상시키기 위한 목적으로 사용된다. 이러한 수정은 오류를 감지하고 수정하는 것을 목표로 하여 생성된 분석의 품질을 크게 향상시킬 수 있다. 마이크로 편집, 매크로 편집, 선택적 편집과 같은 데이터 편집 기법의 예 또는 그래픽 편집 및 대화형 편집과 같은 데이터 편집에 사용되는 다양한 도구.

대화형 편집

인터랙티브 편집이라는 용어는 일반적으로 현대적인 컴퓨터 지원 수동 편집에 사용된다. 통계청(NSI)에 적용된 대부분의 대화형 데이터 편집 도구는 데이터 입력 중이나 입력 후, 그리고 필요한 경우 오류 데이터를 즉시 수정할 수 있도록 한다. 잘못된 데이터를 수정하려면 다음과 같은 몇 가지 방법을 따를 수 있다.

  • 응답자에게 다시 연락
  • 응답자의 데이터를 전년도의 데이터와 비교
  • 응답자의 데이터를 비슷한 응답자의 데이터와 비교
  • 인간 편집자의 주제 지식 사용

쌍방향 편집은 데이터를 편집하는 표준 방법이다. 범주형 데이터와 연속형 데이터를 모두 편집하는 데 사용할 수 있다.[4] 쌍방향 편집은 검토와 조정의 주기적 과정을 완료하는 데 필요한 시간을 단축한다.[5] 또한 대화형 편집은 데이터 세트와 데이터 분석에서 얻을 수 있는 결과를 이해해야 한다.

선택적 편집

선택적 편집은 영향력 있는 오류와 특이치를 식별하기 위한 몇 가지 방법의 총칭이다.[note 2] 선택적 편집 기법은 대화형 편집에 사용할 수 있는 제한된 시간과 자원을 발행된 수치의 최종 추정치의 품질에 가장 큰 영향을 미치는 레코드에 할당하는 등 대화형 편집을 레코드의 잘 구성된 하위 집합에 적용하는 것을 목표로 한다. 선택적 편집에서 데이터는 두 개의 스트림으로 분할된다.

  • 임계 흐름
  • 중요하지 않은 스트림

중요한 흐름은 영향력 있는 오류를 포함할 가능성이 높은 기록으로 구성된다. 이 중요한 기록들은 전통적인 상호작용 방식으로 편집된다. 영향력 있는 오류를 포함할 가능성이 낮은 비임계 스트림의 레코드는 컴퓨터 지원 방식으로 편집되지 않는다.[6]

데이터 편집 기술

데이터 편집은 여러 가지 방법으로 수행될 수 있으며 주로 탐색 중인 데이터 세트에 따라 결정된다. [7]

데이터의 유효성 및 완전성

데이터 집합의 유효성은 응답자가 제공하는 응답의 완전성에 따라 달라진다. 데이터 편집 방법 중 하나는 숫자 또는 숫자가 아닌 응답이 필요한 필드에서 모든 응답이 완료되었는지 확인하는 것이다. 아래 예제를 참조하십시오.

위의 표는 불완전하고 잘못된 데이터의 예다. 열 1, 행 2: 나머지 테이블이 숫자일 때 정답은 영숫자임을 참조하십시오. 3열, 3행: 답이 불완전하고 데이터가 누락됨을 참조하십시오.

중복 데이터 입력

제공된 모든 데이터를 한 번만 입력하도록 하기 위해 데이터가 고유한지 확인하는 것은 데이터 편집의 중요한 측면이다. 이렇게 하면 분석 보고가 왜곡될 수 있는 데이터가 반복될 가능성이 감소한다. 아래 예제를 참조하십시오.

위의 표에는 중복 항목이 있는 데이터의 예가 나와 있다. 자세한 내용은 Sr을 참조하십시오. No 1과 4: 데이터는 서로 다른 인덱스(Index No.)를 가진 두 개의 다른 항목에 대해 반복된다.

특이치

데이터 집합에서 특이치를 찾는 것이 일반적이며, 앞에서 설명한 바와 같이 데이터 모형에 잘 맞지 않는 값이다. 이러한 극단값은 동일한 데이터 집합에 대한 이전 데이터 시리즈 또는 병렬 데이터 시리즈의 데이터 포인트 분포를 기반으로 찾을 수 있다. 이 값은 잘못된 것으로 간주될 수 있으며 반응의 유효성을 확인하고 결정하기 위해 추가 분석이 필요하다. 아래 예제를 참조하십시오.

위의 표에서 특이치로 알려진 데이터 집합의 극단값의 예가 나와 있다. 직원 2 및 6: 표의 나머지 부분과 데이터가 다른 것을 참조하십시오.

논리적 불일치

논리적 일관성은 논리적 관계의 존재와 변수들 사이의 상호의존성이다. 이 편집을 위해서는 데이터 집합에 대한 특정 이해와 이전 보고서나 정보에 기초하여 데이터의 오류를 식별할 수 있는 기능이 필요하다. 이러한 유형의 데이터 편집은 데이터 필드 또는 변수 간의 차이를 설명하는 데 사용된다. 아래 예제를 참조하십시오.

위의 표는 데이터 집합의 논리적 불일치의 예다. 2행 참조: Salim의 나이는 55cm로 문서화되었으며, 이는 논리적이지 못하여 데이터 세트의 오류를 의미한다.

매크로 편집

매크로 편집 방법에는 두 가지가 있다.[6]

집계방법

이 방법은 발표 전 거의 모든 통계기관에서 따르며, 발표될 수치가 그럴듯해 보이는지 여부를 검증하는 것이다. 이는 이전 출판물에서 동일한 수량과 출판물 표의 수량을 비교함으로써 달성된다. 비정상적인 값이 관찰되면 의심스러운 수량에 기여하는 개별 기록과 필드에 마이크로편집 절차를 적용한다.[5]

분배방법

이용 가능한 데이터는 변수의 분포를 특성화하는 데 사용된다. 그런 다음 모든 개별 값을 분포와 비교한다. (분포를 고려할 때) 흔치 않은 것으로 간주될 수 있는 값을 포함하는 기록은 추가 검사 및 편집의 대상이 될 수 있다.[8]

자동 편집

자동 편집에서 레코드는 사람의 개입 없이 컴퓨터에 의해 편집된다.[9] 단일 변수 또는 변수 조합의 값에 대한 사전 지식은 허용 가능한 값을 지정하거나 제한하는 편집 규칙 집합으로 공식화될 수 있다.

데이터 편집의 결정 요인

데이터 편집은 주어진 연구의 용량과 자원에 한계가 있다. 이러한 결정요인은 데이터 집합의 사후 분석에 긍정적 또는 부정적 영향을 미칠 수 있다. 다음은 데이터 편집의 몇 가지 결정요인이다. [7]

사용 가능한 리소스: [7]

  • 프로젝트에 할당된 시간
  • 자금 및 예산 제약

사용 가능한 소프트웨어:[7]

  • 데이터 분석에 사용되는 도구
  • 데이터 세트의 오류를 식별하는 데 사용할 수 있는 도구
  • 데이터의 목표 및 목표에 따라 소프트웨어를 즉시 사용할 수 있음

데이터 원본: [7]

  • 응답자가 예상에 따라 답변할 수 있는 한계
  • 쉽게 구할 수 없는 응답자 정보 누락
  • 대용량 데이터 풀에서 후속 조치를 유지하기가 어려움

데이터 편집 절차 조정: [7]

  • 데이터 집합에 대한 주관적 보기
  • 데이터의 전체 목표 간의 불일치
  • 데이터 편집을 처리하는 데 사용되는 방법

참고 항목

메모들

  1. ^ 간행물 수치에 상당한 영향을 미치는 오류.
  2. ^ 데이터 모형에 잘 맞지 않는 값

참조

  1. ^ "National Center for Education Statistics (NCES) Home Page, part of the U.S. Department of Education". nces.ed.gov. Retrieved 2020-12-06.
  2. ^ "UNECE".
  3. ^ "Statistics: Power from Data! Data editing". www150.statcan.gc.ca.
  4. ^ 와알, 톤 드 외 "통계자료 편집 및 귀책 핸드북" Wiley 출판물, 2011년, p.15.
  5. ^ a b "UNECE Homepage". www.unece.org.
  6. ^ a b 와알, 톤 드 외 "통계자료 편집 및 귀책 핸드북" 와일리 출판, 2011년, 페이지 16.
  7. ^ a b c d e f SCAD. "SCAD". SCAD. Retrieved 2020-12-07.
  8. ^ 베들레헴, J. "적용된 조사 방법 A 통계적 관점" Wiley 출판물, 2009년 p.205.
  9. ^ 와알, 톤 드 외 "통계자료 편집 및 귀책 핸드북" 와일리 출판물