데이터 세트
Data set데이터 세트(또는 데이터 세트)는 데이터의 집합입니다.표 형식의 데이터의 경우, 데이터 세트는 하나 이상의 데이터베이스 테이블에 대응합니다.여기서 테이블의 각 열은 특정 변수를 나타내며 각 행은 해당 데이터 세트의 특정 레코드에 대응합니다.데이터 세트에는 데이터 세트의 각 멤버에 대한 각 변수 값(예: 개체의 키 및 무게)이 나열됩니다.데이터 세트는 문서 또는 [1]파일의 모음으로도 구성될 수 있습니다.
오픈 데이터 분야에서 데이터 세트는 공개 데이터 저장소에서 공개된 정보를 측정하는 단위입니다.유럽 data.europa.eu 포털은 100만 개 이상의 데이터 [2]세트를 집계하고 있습니다.다른 문제(실시간 데이터 소스,[3] 비관계 데이터 세트 등)는 이에 [3]대한 합의를 도출하는 데 어려움을 가중시킨다.
특성.
데이터 세트의 구조와 속성은 몇 가지 특성이 정의됩니다.여기에는 속성 또는 변수의 수와 유형, 그리고 여기에 적용되는 다양한 통계 측도(예: 표준 편차 및 첨도)가 포함됩니다.Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.</ref>
값은 예를 들어 센티미터 단위로 사람의 키를 나타내는 실수나 정수와 같은 숫자일 수 있지만, 예를 들어 개인의 민족성을 나타내는 명목 데이터(숫자 값으로 구성되지 않음)일 수도 있다.더 일반적으로, 값은 종류의 측정의 수준이라고 설명하였다의 될 것 같다.각 변수 내용은 값 보통 모두 같은 범주에 속한다.하지만도 어떤 면에 명시해야 한다 가치가 실종될 수 있다.
통계학에서 데이터 세트는 일반적으로 통계 모집단을 표본 추출하여 얻은 실제 관측치로부터 얻으며, 각 행은 해당 모집단의 한 요소에 대한 관측치에 해당합니다.데이터 세트는 특정 종류의 소프트웨어를 테스트하기 위해 알고리즘에 의해 추가로 생성될 수 있습니다.SPSS와 같은 일부 최신 통계 분석 소프트웨어는 여전히 고전적인 데이터 집합 방식으로 데이터를 제공합니다.데이터가 없거나 의심스러운 경우 데이터 [4]세트를 완성하기 위해 귀속 방법을 사용할 수 있습니다.
클래식 데이터 세트
통계자료에는 다음과 같은 몇 가지 고전적인 데이터 세트가 광범위하게 사용되고 있다.
- 홍채꽃 데이터 세트 – Ronald Fisher(1936)[5]가 도입한 다변량 데이터 세트.
- MNIST 데이터베이스 – 분류, 클러스터링 및 이미지 처리 알고리즘 테스트에 일반적으로 사용되는 수기 숫자 이미지
- 범주형 데이터 분석 – 범주형 데이터 분석 입문서에 사용된 데이터 세트입니다.
- 견고한 통계 – 견고한 회귀 및 특이치 검출에 사용되는 데이터 세트(Russeeu 및 Leroy, 1968).쾰른 대학에서 온라인으로 제공.
- 시계열 – Chatfield의 저서 "The Analysis of Time Series"에 사용된 데이터는 StatLib에서 온라인으로 제공됩니다.
- 극한값 – "극한값의 통계 모델링 소개"라는 책에서 사용된 데이터는 이 책의 저자인 Stuart Coles가 온라인으로 제공한 데이터의 스냅샷입니다.
- 베이지안 데이터 분석 – 이 책에 사용된 데이터는 이 책의 저자 중 한 명인 Andrew Gelman에 의해 온라인으로 제공됩니다.
- 부파 간 데이터 – 기계 학습(데이터 마이닝) 문헌의 여러 논문에 사용됩니다.
- Anscombe의 4인조 – 통계 오류를 피하기 위해 데이터를 그래프로 표시하는 것의 중요성을 보여주는 작은 데이터 세트
데이터 세트에 대한 액세스를 제공하는 여러 포털이 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5.
- ^ "European open data portal". European open data portal. European Commission. Retrieved 2016-09-23.
- ^ a b Atz, U (2014). "The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF). CEDEM 2014 Proceedings. Retrieved 2016-08-01.
- ^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.
- ^ Fisher, R.A. (1963). "The Use of Multiple Measurements in Taxonomic Problems" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
외부 링크
- Data Hub – 오픈 데이터 세트를 위한 커뮤니티 관리 홈
- Data.gov – 미국 정부의 공개 데이터
- data.world
- GCMD – 지구과학 및 환경과학 데이터 세트와 서비스에 대한 34,000개 이상의 설명이 포함된 글로벌 변경 마스터 디렉토리
- 인도주의 데이터 교환(HDX) – 인도주의 데이터 교환(HDX)은 유엔 인도주의 업무 조정 사무소가 관리하는 개방적인 인도주의 데이터 공유 플랫폼입니다.
- NYC 오픈 데이터– 뉴욕시 기관 및 기타 파트너에 의해 공개되는 무료 공개 데이터.
- 관계형 데이터 세트 저장소
- 리서치 파이프라인– 다양한 토픽의 데이터 세트에 대한 링크가 있는 Wiki/웹 사이트
- StatLib -JASA 데이터 아카이브
- UCI – 머신 러닝 저장소
- 영국 정부의 공공 데이터
- World Bank Open Data – World Bank에 의한 글로벌 개발 데이터에 대한 자유롭고 개방적인 접근
- 간단한 2D 데이터셋 모음
- 데이터 작업