히스토그램
Histogram| 히스토그램 | |
|---|---|
| 품질 7대 기본 도구 중 하나 | |
| 최초 설명자 | 칼 피어슨 |
| 목적 | 특정 범위의 값에서 발생하는 관측치의 빈도를 설명하여 주어진 변수의 확률 분포를 대략적으로 평가합니다. |
히스토그램은 숫자 데이터의 분포를 대략적으로 표현한 것입니다.이 용어는 Karl [1]Pearson에 의해 처음 도입되었다.히스토그램을 구성하기 위한 첫 번째 단계는 값의 범위를 "빈"(또는 "버킷")한 다음 값의 전체 범위를 일련의 간격으로 나눈 다음 각 간격에 포함되는 값의 수를 세는 것입니다.빈은 일반적으로 변수의 겹치지 않는 연속 구간으로 지정됩니다.빈(간격)은 인접해 있어야 하며 크기가 [2]같을 필요는 없습니다.
빈의 크기가 동일한 경우 빈 위에 각 빈의 케이스 수인 빈에 비례하는 높이를 가진 직사각형이 세워집니다.히스토그램을 정규화하여 "상대적인" 주파수를 표시할 수도 있습니다.그런 다음 여러 범주의 각각에 해당하는 사례의 비율을 나타내며, 높이의 합계는 1이 된다.
그러나 빈의 너비가 같을 필요는 없다.이 경우, 세워진 직사각형은 [3]빈의 빈도에 비례하는 면적을 갖도록 정의된다.수직축은 주파수가 아니라 주파수 밀도(수평축 변수 단위당 사례 수)입니다.가변 빈 너비의 예는 아래의 인구 조사국 데이터에 나와 있습니다.
인접한 빈이 간격을 두지 않기 때문에 히스토그램의 직사각형은 서로 접촉하여 원래 변수가 [4]연속형임을 나타냅니다.
히스토그램은 데이터의 기본 분포의 밀도를 대략적으로 나타내며, 종종 밀도 추정을 위해 기본 변수의 확률 밀도 함수를 추정합니다.확률 밀도에 사용되는 히스토그램의 총 영역은 항상 1로 정규화됩니다.X 축의 구간 길이가 모두 1이면 히스토그램은 상대 빈도 그림과 동일합니다.
히스토그램은 커널을 사용하여 빈 위의 주파수를 평활화하는 단순한 커널 밀도 추정으로 간주할 수 있습니다.이렇게 하면 일반적으로 기본 변수의 분포를 더 정확하게 반영하는 더 부드러운 확률 밀도 함수가 생성됩니다.밀도 추정치는 히스토그램 대신 표시할 수 있으며, 일반적으로 상자 집합이 아닌 곡선으로 그려집니다.그럼에도 불구하고 히스토그램은 통계 특성을 모델링해야 하는 애플리케이션에서 선호된다.커널 밀도 추정치의 상관된 변동은 수학적으로 설명하기가 매우 어렵지만 각 빈이 독립적으로 변화하는 히스토그램의 경우 간단합니다.
커널 밀도 추정 대신 평균 이동 히스토그램이 있습니다. 평균 이동 [5]히스토그램은 커널을 사용하지 않고도 계산 속도가 빠르고 밀도의 부드러운 곡선을 제공합니다.
히스토그램은 품질 [6]관리를 위한 7가지 기본 도구 중 하나입니다.
히스토그램이 막대 차트와 혼동될 수 있습니다.히스토그램은 연속형 데이터에 사용되며, 여기서 빈은 데이터 범위를 나타내며 막대 차트는 범주형 변수의 그림입니다.일부 저자들은 구분을 [7][8]명확히 하기 위해 막대형 차트 사이에 간격을 둘 것을 권장합니다.
예
500개의 항목을 사용한 오른쪽 히스토그램의 데이터입니다.
| 빈/간격 | 카운트/주파수 |
|---|---|
| - 3.5 ~ -2.51 | 9 |
| - 2.5 ~ -1.51 | 32 |
| -1.5 ~ -0.51 | 109 |
| - 0.5 ~ 0.49 | 180 |
| 0.5~1.49 | 132 |
| 1.5 ~ 2.49 | 34 |
| 2.5~3.49 | 4 |
히스토그램에서 패턴을 설명하는 데 사용되는 단어는 "대칭", "왼쪽으로 처짐", "오른쪽으로 처짐", "단일", "바이모달" 또는 "다모달"입니다.
데이터를 더 자세히 알아보려면 여러 개의 다른 빈 폭을 사용하여 데이터를 표시하는 것이 좋습니다.여기 식당에서 주는 팁의 예가 있다.
미국 인구조사국은 집 [9]밖에서 일하는 1억 2천 4백만 명의 사람들이 있다는 것을 알아냈다.출근 시간에 대한 데이터를 사용하여, 아래 표는 이동 시간이 "30분 이상 35분 미만"이라고 응답한 사람들의 절대 수가 위아래 카테고리의 숫자보다 많은 것을 보여줍니다.이는 보고된 이동 시간을 [citation needed]반올림한 사람들이 원인일 수 있습니다.값을 임의로 반올림한 수치로 보고하는 문제는 [citation needed]사람으로부터 데이터를 수집할 때 흔히 볼 수 있는 현상이다.
절대값별 데이터 간격 폭 양 수량/폭 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
이 히스토그램은 단위 구간당 사례 수를 각 블럭의 높이로 표시하므로 각 블럭의 면적은 해당 범주에 속하는 조사 대상자의 수와 같습니다.곡선 아래의 면적은 총 환자 수(1억2400만 명)를 나타냅니다.이 유형의 히스토그램은 절대 수를 나타내며 Q는 수천 단위입니다.
비율별 데이터 간격 폭 수량(Q) Q/합계/폭 0 5 4180 0.0067 5 5 13687 0.0221 10 5 18618 0.0300 15 5 19634 0.0316 20 5 17981 0.0290 25 5 7190 0.0116 30 5 16369 0.0264 35 5 3212 0.0052 40 5 4122 0.0066 45 15 9200 0.0049 60 30 6461 0.0017 90 60 3435 0.0005
이 히스토그램은 수직 척도에서만 첫 번째 히스토그램과 다릅니다.각 블록의 면적은 각 범주가 나타내는 총량의 백분율이며, 모든 막대의 총 면적은 1입니다('전체'를 의미함).표시되는 곡선은 단순한 밀도 추정치입니다.이 버전은 비율을 표시하며 단위 영역 히스토그램이라고도 합니다.
즉, 히스토그램은 폭이 클래스 간격을 나타내고 영역이 대응하는 주파수에 비례하는 직사각형으로 주파수 분포를 나타냅니다.각각의 높이는 간격의 평균 주파수 밀도입니다.간격은 히스토그램에 의해 배타적으로 표시되는 데이터도 연속됨을 나타내기 위해 함께 배치됩니다(예를 들어 히스토그램에서는 10.5-20.5와 20.5-33.5의 2개의 연결 간격을 가질 수 있지만 10.5-20.5와 22.5-32.5의 2개의 연결 간격은 비어 있지 않으며 빈 간격은 생략되지 않습니다).) [10]。
수학적 정의
히스토그램을 구성하는 데 사용되는 데이터는 각 분리된 범주(빈이라고 함)에 속하는 관측치의 수를 세는 함수i m을 통해 생성됩니다.따라서 n개를 총 관측치 수로 하고 k를 총 빈 수로 하면 히스토그램 데이터i m은 다음 조건을 충족합니다.
누적 히스토그램
누적 히스토그램은 지정된 빈까지 모든 빈의 누적 관측치 수를 카운트하는 매핑입니다.즉, 히스토그램j m의 누적 히스토그램i M은 다음과 같이 정의됩니다.
빈 수 및 폭
빈의 "최적" 개수는 없으며 빈 크기가 다르면 데이터의 다양한 특징이 드러날 수 있습니다.그룹화 데이터는 적어도 17세기 그룬트의 연구만큼 오래되었지만,[12] 1926년 스터지의 연구까지 체계적인 지침이 주어지지[11] 않았다.
기본 데이터 포인트의 밀도가 낮은 곳에서 넓은 빈을 사용하면 샘플링 랜덤성으로 인한 노이즈가 감소합니다. 밀도가 높은 곳에서 좁은 빈을 사용하면(신호가 노이즈를 흡수) 밀도 추정에 더 높은 정밀도를 제공합니다.따라서 히스토그램 내에서 빈 폭을 변경하는 것이 좋습니다.그럼에도 불구하고 등폭의 빈이 널리 사용되고 있다.
일부 이론가는 최적의 빈 수를 확인하려고 시도했지만 이러한 방법은 일반적으로 분포의 모양에 대해 강력한 가정을 합니다.실제 데이터 분포와 분석의 목적에 따라 서로 다른 빈 폭이 적절할 수 있으므로 일반적으로 적절한 폭을 결정하기 위해 실험이 필요합니다.그러나 유용한 가이드라인과 [13]경험칙이 여러 가지가 있습니다.
빈 k의 수는 직접 할당할 수도 있고 제안된 빈 폭 h에서 다음과 같이 계산할 수도 있습니다.
괄호는 천장 기능을 나타냅니다.
제곱근 선택
이 값은 샘플의 데이터 포인트 수 제곱근(Excel의 Analysis Toolpak 히스토그램 및 기타 많은 항목에 사용)을 취하여 다음 [14]정수로 반올림합니다.
스터지스의 공식
스터지의 공식은[12] 이항 분포에서 파생되며 암묵적으로 거의 정규 분포를 가정합니다.
스터지스의 공식은 암묵적으로 데이터 범위를 기반으로 하며, 빈의 수가 7개 미만일 것이고 데이터의 추세를 잘 나타낼 것 같지 않기 때문에 n < 30일 경우 성능이 저하될 수 있다.한편, Sturges의 공식은 매우 큰 데이터셋에 대한 빈 폭을 과대평가하여 [15]히스토그램이 과잉 평활될 수 있습니다.데이터가 정규 분포를 따르지 않는 경우에도 성능이 저하될 수 있습니다.
히스토그램 빈에 대해 널리 받아들여지는 다른 두 공식인 Scott의 규칙과 Terrell-Scott 규칙과 비교했을 때 Sturges 공식의 출력은 n ≤ [15]100일 때 가장 가깝다.
쌀의 법칙
라이스 룰은 스터지의 룰에 대한 간단한 대안으로 제시되었다.
돈 공식
Doane의 공식은[17] 비정상 데이터로 성능을 개선하려는 Sturges의 공식을 수정한 것입니다.
서 g 1은 분포의 3차 분포의 추정치입니다.
스콧의 정규 참조 규칙
폭는 과 같습니다
여기서}) 표준 편차입니다.Scott의 정규 기준[18] 규칙은 밀도 [11]추정치의 통합 평균 제곱 오차를 최소화한다는 점에서 정규 분포 데이터의 랜덤 표본에 최적입니다.
프리드먼-디아코니스의 선택
Freedman-Diaconis 규칙은 빈 h h를 다음과 [19][11]같이 지정합니다.
IQR로 표시되는 사분위간 범위를 기반으로 합니다.Scott 규칙 중 3.5µ를 데이터의 특이치에 대한 표준 편차보다 덜 민감한 2 IQR로 대체합니다.
교차 검증 추정 제곱 오차 최소화
Scott의 규칙에서 통합 평균 제곱 오차를 최소화하는 이 접근방식은 1회 생략 교차 [20][21]검증을 사용하여 정규 분포를 넘어 일반화할 수 있다.
서 N k는 k번째 빈의 데이터 포인트 수이며, J를 최소화하는h 값을 선택하면 통합 평균 제곱 오차가 최소화됩니다.
시마자키와 시노모토 선택
선택은 추정된2 L 위험[22] 함수의 최소화에 기초한다.
서 m \ {} v \ v、 m k \ \ {m } 1 } \ { k} { i }= { i } k k with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with with i - ) ) 2\ \ v =1} \ _ { i}(}
가변 빈 폭
균일한 간격의 빈을 선택하는 대신 일부 애플리케이션에서는 빈 폭을 변경하는 것이 좋습니다.이렇게 하면 카운트가 낮은 빈을 피할 수 있습니다.일반적으로 각 빈의 표본 수가 거의 동일할 것으로 예상되는 적합 빈을 선택하는 것이 일반적입니다.빈은 알려진 분포에 따라 선택할 수도 있고 각 빈에n /k \ \ n의 샘플이 있도록 데이터를 기반으로 선택할 수도 있습니다.히스토그램을 그릴 때 주파수 밀도는 종속 축에 사용됩니다.모든 빈의 면적은 거의 동일하지만 히스토그램의 높이는 밀도 분포와 비슷합니다.
적합 빈의 경우 빈 수에 대한 다음 규칙이 [23]권장됩니다.
이러한 빈 선택은 빈에 동일한 수의 표본이 포함되어 있는지 여부를 검정하는 Pearson 카이 제곱 검정의 검정력을 최대화하기 위한 것입니다.구체적으로는 특정 \alpha에 대해 다음 [24]방정식의 1/2배와 1배 사이에서 선택할 것을 권장합니다.
여기서 - ^{-은 프로빗 함수입니다. 0. \0.05에 이 규칙에 따라 12 /({1.와3.2 /({3. 의 계수가 됩니다. 이 광범위한 최적값에서 기억하기 쉬운 값으로 선택됩니다.
발언
빈의 수가 에 비례해야 하는 타당한 이유는 다음과 같다. 데이터가 밀도로 제한 확률 분포를 n n 독립적으로 실현되었다고 가정한다.그러면 히스토그램은 n n이(가) 무한대 경향이 있는 처럼 동일하게 "강화된" 상태로 유지됩니다.ss)가 분포의 "폭"(예: 표준 편차 또는 사분위간 범위)인 경우 빈(빈도)의 단위 는 nh(\ nh 이며 상대 표준 오류는s 입니다.와 비교다음으로 빈의 상대적인 변화는 밀도 도함수가 0이 아닌 경우 h h 이다.k {\ k이) n3의인 이 두 개의 순서는 같습니다.즉 k {\s은(는) 의 순서입니다.이 간단한 입방근 선택은 너비가 일정하지 않은 빈에도 적용할 수 있습니다.
적용들
- 수문학에서는 확률 분포로 분석되는 강우 및 하천 유량 데이터의 히스토그램과 추정 밀도 함수를 사용하여 발생 [26]빈도와 행동을 파악한다.파란색 그림에 예가 나와 있습니다.
- 많은 디지털 이미지 처리 프로그램에는 픽셀의 대비/휘도 분포를 보여주는 히스토그램 도구가 있습니다.
「 」를 참조해 주세요.
- 데이터 비닝
- 밀도 추정
- 보다 부드럽고 복잡한 밀도 추정 방법인 커널 밀도 추정
- 엔트로피 추정
- 프리드먼-디아코니스 규칙
- 이미지 히스토그램
- 파레토 차트
- 품질의 7가지 기본 도구
- V-최적 히스토그램
레퍼런스
- ^ Pearson, K. (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010.
- ^ Howitt, D.; Cramer, D. (2008). Introduction to Statistics in Psychology (Fourth ed.). Prentice Hall. ISBN 978-0-13-205161-3.
- ^ Freedman, D.; Pisani, R.; Purves, R. (1998). Statistics (Third ed.). W. W. Norton. ISBN 978-0-393-97083-8.
- ^ Charles Stangor (2011) "행동과학의 연구방법"워즈워스, Cengage Learning입니다.ISBN 9780840031976.
- ^ David W. Scott (December 2009). "Averaged shifted histogram". Wiley Interdisciplinary Reviews: Computational Statistics. 2:2 (2): 160–164. doi:10.1002/wics.54.
- ^ Nancy R. Tague (2004). "Seven Basic Quality Tools". The Quality Toolbox. Milwaukee, Wisconsin: American Society for Quality. p. 15. Retrieved 2010-02-05.
- ^ Naomi, Robbins. "A Histogram is NOT a Bar Chart". Forbes. Retrieved 31 July 2018.
- ^ M. Eileen Magnello (December 2006). "Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician". The New Zealand Journal for the History and Philosophy of Science and Technology. 1 volume. OCLC 682200824.
- ^ US 2000 인구 조사
- ^ Dean, S. & Ilowsky, B. (2009년 2월 19일)기술 통계량:히스토그램Connexions 웹 사이트 http://cnx.org/content/m16298/1.11/에서 취득했습니다.
- ^ a b c Scott, David W. (1992). Multivariate Density Estimation: Theory, Practice, and Visualization. New York: John Wiley.
- ^ a b Sturges, H. A. (1926). "The choice of a class interval". Journal of the American Statistical Association. 21 (153): 65–66. doi:10.1080/01621459.1926.10502161. JSTOR 2965501.
- ^ 예: § 5.6 "밀도 추정", W. N. Venables 및 B. D. Ripley, S.(2002), Springer, 제4판.ISBN 0-387-95457-0.
- ^ "EXCEL Univariate: Histogram".
- ^ a b Scott, David W. (2009). "Sturges' rule". WIREs Computational Statistics. 1 (3). doi:10.1002/wics.35.
- ^ 온라인 통계 교육:멀티미디어 학습 코스(http://onlinestatbook.com/))프로젝트 리더: Rice University, David M. Lane (제2장 "Graphing Distributions", "Histograms" 섹션)
- ^ Doane DP(1976) 미적 주파수 분류.미국의 통계학자, 30: 181~183
- ^ Scott, David W. (1979). "On optimal and data-based histograms". Biometrika. 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
- ^ Freedman, David; Diaconis, P. (1981). "On the histogram as a density estimator: L2 theory" (PDF). Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 57 (4): 453–476. CiteSeerX 10.1.1.650.2473. doi:10.1007/BF01025868. S2CID 14437088.
- ^ Wasserman, Larry (2004). All of Statistics. New York: Springer. p. 310. ISBN 978-1-4419-2322-6.
- ^ Stone, Charles J. (1984). "An asymptotically optimal histogram selection rule" (PDF). Proceedings of the Berkeley conference in honor of Jerzy Neyman and Jack Kiefer.
- ^ Shimazaki, H.; Shinomoto, S. (2007). "A method for selecting the bin size of a time histogram". Neural Computation. 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404. doi:10.1162/neco.2007.19.6.1503. PMID 17444758. S2CID 7781236.
- ^ Jack Prins; Don McCormack; Di Michelson; Karen Horrell. "Chi-square goodness-of-fit test". NIST/SEMATECH e-Handbook of Statistical Methods. NIST/SEMATECH. p. 7.2.1.1. Retrieved 29 March 2019.
- ^ Moore, David (1986). "3". In D'Agostino, Ralph; Stephens, Michael (eds.). Goodness-of-Fit Techniques. New York, NY, USA: Marcel Dekker Inc. p. 70. ISBN 0-8247-7487-6.
- ^ 확률 분포 및 밀도 함수를 위한 계산기
- ^ 히스토그램 및 확률 밀도 함수의 그림
추가 정보
- 랭커스터, H.O. 의학 통계 입문존 와일리와 아들 1974년ISBN 0-471-51250-8
외부 링크
- Aran Lunzer와 Amelia McNamara의 에세이인 히스토그램 탐색
- 출근 및 근무지 이동 (예시로 인용된 인구조사서류의 위치)
- 일부 샘플의 신호 및 영상에 대한 부드러운 히스토그램
- 히스토그램:외부 링크 및 입자 물리학에 대한 적용에 의한 구성, 분석 및 이해.
- 히스토그램의 빈 크기를 선택하는 방법
- 히스토그램: 이론과 실천, 위에서 도출한 빈 폭 개념의 몇 가지 훌륭한 삽화입니다.
- 올바른 방법 히스토그램
- 대화형 히스토그램 생성기
- 멋진 히스토그램을 표시하는 Matlab 함수
- MS Excel의 동적 히스토그램
- 자바 애플릿을 이용한 히스토그램 구축 및 조작과 소크라테스 차트
- 최적의 히스토그램을 구성하기 위한 도구 상자