통계의 오용
Misuse of statistics![]() |
통계는 오해의 소지가 있는 방식으로 사용될 경우, 일상적인 관찰자가 데이터가 보여주는 것이 아닌 다른 것을 믿게 속일 수 있습니다.즉, 통계적 논쟁이 거짓을 주장할 때 통계의 오용이 발생합니다.경우에 따라서는 오용이 우발적일 수도 있습니다.다른 곳에서는, 그것은 목적적이고 가해자의 이익을 위한 것입니다.관련된 통계적 이유가 거짓이거나 잘못 적용된 경우, 이는 통계적 오류에 해당합니다.
잘못된 통계 함정은 지식을 추구하는 데 상당한 피해를 줄 수 있습니다.예를 들어, 의학에서 거짓을 바로잡는 것은 수십 년이 걸리고 생명을 앗아갈 수 있습니다.
오용은 쉽게 빠질 수 있습니다.전문 과학자들은, 심지어 수학자들과 전문 통계학자들도, 모든 것을 확인하는 데 주의를 기울인다 하더라도, 몇몇 간단한 방법들로도 속을 수 있습니다.과학자들은 확률 이론에 대한 지식이 부족하고 시험의 표준화가 부족하기 때문에 통계로 자신을 속이는 것으로 알려져 왔습니다.
정의, 제한 및 컨텍스트
한 가지 사용 가능한 정의는 "통계의 오용:의도적으로 또는 무지 또는 부주의로 인해- 결론이 정당하지 않거나 부정확한 방식으로 숫자를 사용하는 것.[1]"숫자"에는 다른 출처에서 논의된 오해의 소지가 있는 그래픽이 포함되어 있습니다.이 용어는 통계 텍스트에서 흔히 접할 수 있는 용어가 아니며 단일한 권위 있는 정의는 없습니다.60년 전 통계학자들의 사례로 풍부하게 묘사된 통계로 거짓말을 일반화한 것입니다.
이 정의는 다음과 같은 몇 가지 문제에 직면합니다(일부는 소스에서 해결됨).[2]
- 일반적으로 통계는 확률을 생성하며, 결론은 잠정적입니다.
- 잠정적인 결론에는 오류와 오류율이 있습니다.유의성 검정의 잠정 결론 중 일반적으로 5%가 잘못된 것입니다.
- 통계학자들이 이상적인 방법에 대해 완전히 일치하지 않습니다.
- 통계적 방법은 완전히 충족되는 경우가 거의 없는 가정에 근거합니다.
- 데이터 수집은 대개 윤리적, 현실적, 재정적 제약에 의해 제한됩니다.
통계와 거짓말하는 방법은 통계가 합법적으로 다양한 형태를 취할 수 있다는 것을 인정합니다.통계를 통해 제품이 "경량하고 경제적"인지 "약하고 저렴"한지 여부는 수치와 상관없이 논의될 수 있습니다.목표로서 도덕적 리더십(예를 들어, 도덕적 리더십)에 대한 통계적 정확성의 대체에 반대하는 사람들도 있습니다.과학자, 여론 조사원, 통계학자 및 기자들은 직원 또는 컨설턴트인 경우가 많기 때문에 오용에 대한 책임을 부여하는 것은 종종 어렵습니다.
통계의 음흉한 오용은 청취자, 관찰자, 청중 또는 배심원에 의해 완성됩니다.공급업체는 "통계"를 숫자 또는 그래픽(또는 사진 전/후)으로 제공하여 소비자가 정당하지 않거나 부정확한 결론을 도출할 수 있도록 합니다.공공 통계적인 읽고 쓰는 능력의 부족한 상태와 인간 직관의 비 statist적인 특성은 명백하게 잘못된 결론을 내지 않고 오해할 수 있게 합니다.통계 소비자의 책임에 대한 정의가 약합니다.
한 역사학자는 일반화의 오류와 인과관계의 오류를 포함하여 12개의 범주에서 100개 이상의 오류를 나열했습니다.[3]표본 추출, 통계적 넌센스, 통계적 확률, 거짓 외삽, 거짓 보간 및 음흉한 일반화를 포함한 몇 가지 오류는 명백하거나 잠재적으로 통계적입니다.적용 확률의 모든 기술적/수학적 문제는 통계적 확률의 단일 목록 오류에 적합합니다.많은 오류들이 통계적 분석에 결합되어, 통계적으로 건전한 분석으로부터 잘못된 결론이 흘러갈 가능성을 허용할 수 있습니다.
통계학의 예로는 의학 연구의 분석을 들 수 있습니다.이 과정에는 실험 계획, 실험 수행, 데이터 분석, 논리적 결론 도출 및 발표/보고 등이 포함됩니다[4][5].그 보고서는 대중 언론과 광고주들에 의해 요약됩니다.통계를 잘못 사용하면 프로세스의 모든 단계에서 문제가 발생할 수 있습니다.과학 보고서에 이상적으로 부과되는 통계 기준은 대중적인 언론사와 광고주에게 부과되는 통계 기준과는 매우 다르지만, 과학을 가장한 광고의 경우도 존재합니다.통계의 오용에 대한 정의는 통계보고의 요구되는 완전성에 약한 것입니다.신문이 최소한 보도된 통계의 출처를 제공해야 한다는 의견이 표출되고 있습니다.
단순원인
통계의 오용이 많이 발생하는 이유는
- 출처는 통계 전문가가 아니라 주제 전문가입니다.[6]출처가 방법을 잘못 사용하거나 결과를 해석할 수 있습니다.
- 정보원은 통계학자이지, 주제 전문가가 아닙니다.[7]전문가는 비교되는 숫자가 서로 다른 것을 설명할 때 알아야 합니다.법적 정의나 정치적 경계가 바뀌면 현실과 달리 숫자도 변합니다.
- 연구 중인 주제가 잘 정의되어 있지 않거나,[8] 어떤 측면은 정량화하기가 쉬운 반면 다른 측면은 정량화하기 어렵거나 알려진 정량화 방법이 없습니다(McNamara 오류 참조).예를 들어,
- IQ 테스트는 사용할 수 있고 수치적이지만 지능은 이해하기 어려운 개념이기 때문에 측정하는 것을 정의하기는 어렵습니다.
- "impact"를 게시하는 것도 같은 문제가 있습니다.[9]과학 논문과 학술지는 종종 "영향"에 의해 평가되며, 이후 출판물의 인용 횟수로 정량화됩니다.수학자들과 통계학자들은 (상대적으로 객관적이기는 하지만) 영향력이 그다지 의미 있는 측도가 아니라는 결론을 내립니다."인용 데이터에 대한 유일한 의존도는 기껏해야 연구에 대한 불완전하고 종종 얕은 이해를 제공합니다. 이는 다른 판단에 의해 강화될 때만 유효한 이해입니다.숫자가 본질적으로 건전한 판단보다 뛰어난 것은 아닙니다."
- 영어의 단어 수에 대한 일견 단순해 보이는 질문은 즉시 고대 형태, 접두사와 접미사, 단어의 여러 정의, 변형 철자법, 방언, 상상의 창작물([10]외유형 및 통계학의 외유형술과 같은)에 대한 질문과 마주칩니다.
- 데이터 품질이 좋지 않습니다.[11]의류는 예를 들어줍니다.사람들은 다양한 크기와 체형을 가지고 있습니다.의류 사이즈가 다차원적이어야 한다는 것은 명백합니다.대신 예상치 못한 방법으로 복잡합니다.일부 의류는 사이즈별로만 판매되며(몸매에 대한 명확한 고려는 없음), 국가 및 제조사별로 사이즈가 다르며 일부 사이즈는 의도적으로 오해의 소지가 있습니다.크기는 숫자로 되어 있지만, 가장 조잡한 통계 분석만 주의하여 크기 번호를 사용할 수 있습니다.
- 대중 언론은 제한된 전문성과 복합적인 동기를 가지고 있습니다.[12]사실이 "뉴스 가치가 있는" 것이 아닐 경우(과장이 필요할 수도 있음), 그 사실은 공표되지 않을 수 있습니다.광고주들의 동기는 더욱더 엇갈립니다.
- "정치인들은 통계를 취객이 가로등을 사용하는 것과 같은 방식으로 사용합니다. 조명보다는 지지를 위해서 말이죠." – Andrew Lang (Wiki 인용문) "우리는 같은 숫자를 보는 이 두 가지 방법으로 무엇을 배울 수 있을까요?우리는 좌우를 막론하고 영리한 선전가가 자신의 경우를 뒷받침하는 것처럼 보이는 경제 성장에 대한 데이터를 거의 항상 제시할 수 있는 방법을 찾을 수 있다는 것을 알게 됩니다.따라서 우리는 또한 소금을 약간 가지고 있는 강력한 정치적 출처로부터 어떤 통계적 분석도 취하는 법을 배웁니다."[13]통계라는 용어는 주에서 생성하고 사용한 숫자에서 유래합니다.좋은 정부는 정확한 숫자를 필요로 할 수 있지만, 대중적인 정부는 지지적인 숫자를 필요로 할 수 있습니다 (꼭 같지는 않습니다)."정부가 통계를 사용하고 오용하는 것은 고대 예술입니다."[14]
오남용 유형
불리한 관측치의 폐기
중립적(쓸데없는) 제품을 홍보하려면 회사가 예를 들어 신뢰 수준 95%의 40개 연구를 찾거나 수행해야 합니다.만약 이 제품이 쓸모가 없다면, 이 제품이 유익했다는 연구가 1건, 유해하다는 연구가 1건, 그리고 결론이 나지 않은 연구가 38건이 될 것입니다(38건은 40건의 95%)이 전략은 더 많은 연구가 있을 때 더 효과적이 됩니다.담배 회사들이 흡연과 암 사이의 연관성을 부인하는 것, 금연 옹호 단체들과 흡연과 다양한 질병 사이의 연관성을 증명하려고 노력하는 언론 매체들, 또는 기적의 알약 판매업자들과 같이 그들이 수행하는 모든 연구를 발표하지 않는 단체들은 이 전략을 사용할 가능성이 있습니다.
로널드 피셔(Ronald Fisher)는 그의 유명한 부인이 차를 시식하는 실험에서 이 문제를 고려했습니다(그의 1935년 저서인 실험의 디자인에서).그는 반복되는 실험에 대해 "실패한 결과가 모두 계좌에 들어오지 않는다면 그것은 불법이고 우리의 계산 근거를 빼앗을 것"이라고 말했습니다.
이 개념과 관련된 또 다른 용어는 체리 피킹(cherry picking.
중요한 기능 무시
다변수 데이터셋은 2개 이상의 특징/차원을 갖습니다.이러한 형상 중 분석을 위해 선택된 형상이 너무 적으면(예를 들어, 하나의 형상만 선택하고 다중 선형 회귀 대신 단순 선형 회귀를 수행하는 경우) 결과가 오해의 소지가 있습니다.이로 인해 분석가는 다양한 통계적 역설에 취약해지거나, 일부(모든 경우는 아님) 아래와 같은 잘못된 인과관계에 취약하게 됩니다.
로드된 질문
설문조사에 대한 답변은 종종 응답자의 특정 답변에 대한 선호도를 유도하는 방식으로 질문을 표현함으로써 조작될 수 있습니다.예를 들어, 전쟁에 대한 여론조사 지원에서 다음과 같은 질문이 있습니다.
- 당신은 자유와 민주주의를 세계 다른 곳에 가져오려는 미국의 시도를 지지합니까?
- 당신은 미국의 이유없는 군사행동을 지지합니까?
둘 다 전쟁 지지도에 대해 여론조사를 하지만 다른 방향으로 데이터가 왜곡될 가능성이 높습니다.질문을 더 잘 표현하는 방법은 "당신은 해외에서의 현재 미국의 군사 행동을 지지하는가?"일 수 있습니다."해외에서의 현재 미국의 군사 행동에 대해 어떻게 생각하십니까?"라는 질문을 던질 수 있는 더 중립적인 방법입니다.중요한 것은 질문을 받는 사람이 질문자가 듣고 싶어하는 것을 문구로 추측할 방법이 없다는 것입니다.
이를 위한 또 다른 방법은 "원하는" 답변을 지원하는 정보로 질문을 앞에 두는 것입니다.예를 들어, "증가하는 연방 재정 적자와 더 많은 세입이 절실한 상황을 고려할 때, 소득세 인하를 지지하십니까?"라는 질문보다 "중산층 가정의 세금 부담 증가를 고려할 때, 소득세 인하를 지지하십니까?"라고 대답하는 사람이 더 많을 것입니다.
질문의 적절한 구성은 매우 미묘할 수 있습니다.두 가지 질문에 대한 응답은 질문을 받는 순서에 따라 크게 달라질 수 있습니다.[15]"'주식 소유'에 관해 물었던 한 조사에 따르면, 대부분의 텍사스 목장 주인들은 뉴욕 증권거래소에서 거래되는 종류의 주식은 아닐 지라도 주식을 소유하고 있는 것으로 나타났습니다.[16]
과일반화
과대 일반화는 특정 모집단에 대한 통계량이 원래 모집단이 대표 표본이 아닌 그룹의 구성원 사이에서 유지된다고 주장될 때 발생하는 오류입니다.
예를 들어, 여름에 사과의 100%가 빨간색으로 관찰된다고 가정합니다."모든 사과는 빨갛다"는 주장은 원래 통계가 사과의 특정 부분 집합(여름에 있는 것)에 대해서만 사실이었기 때문에 과도한 일반화의 사례가 될 것입니다. 이는 사과 전체의 인구를 대표하지는 않을 것으로 예상됩니다.
과대 일반화 오류의 현실적인 예는 휴대전화로 전화를 걸어 정치 투표를 하는 것을 금지하는 현대 여론 조사 기술의 유물로 볼 수 있습니다.젊은 사람들은 다른 인구 집단에 비해 전통적인 "랜선" 전화가 없을 가능성이 높기 때문에, 유선 전화 응답자들을 독점적으로 조사하는 전화 여론 조사는, 이러한 표본 추출의 왜곡을 설명하기 위한 다른 조치가 취해지지 않는다면, 여론 조사 결과가 젊은 사람들의 견해를 과소 표집하게 할 수 있습니다.따라서 이 기법을 사용하여 젊은 사람들의 투표 선호도를 조사하는 여론조사는 사용된 표본은 핸드폰만 소지한 젊은 사람들을 제외하고 있기 때문에 전체적으로 젊은 사람들의 진정한 투표 선호도를 완벽하게 표현하지 못할 수도 있습니다.다른 모집단과 다른 투표 선호도를 가질 수도 있고 가지지 않을 수도 있는 사람.
과도한 일반화는 비기술적인 소스, 특히 매스 미디어를 통해 정보가 전달될 때 종종 발생합니다.
편향시료
과학자들은 통계 분석을 위해 좋은 실험 데이터를 수집하는 것이 어렵다는 것을 큰 비용을 들여 알게 되었습니다.예:플라시보 효과는 매우 강력합니다.100%의 피험자들이 넝쿨이라고 거짓으로 불리는 불활성 물질에 노출되었을 때 발진이 생겼고, 실제로 넝쿨이라고 하는 "harmless" 물체에 발진이 생긴 사람은 거의 없었습니다.연구자들은 이중맹검 무작위 비교 실험을 통해 이 효과를 방지합니다.통계학자들은 일반적으로 분석보다 데이터의 유효성에 대해 더 걱정합니다.이는 실험 설계로 알려진 통계학 내의 연구 분야에 반영됩니다.
여론 조사원들은 통계 분석을 위해 좋은 조사 데이터를 수집하는 것이 어렵다는 것을 큰 비용을 들여 알게 되었습니다.데이터 수집에 대한 셀룰러 전화의 선택적 효과(과다 일반화 섹션에서 설명)는 하나의 잠재적인 예입니다. 전통적인 전화를 사용하는 젊은이들이 대표성이 없는 경우 표본이 편향될 수 있습니다.표본 조사에는 여러 가지 함정이 있으며, 실행에 신중을 기해야 합니다.[18]한 번의 노력으로 1000번의 답변을 얻기 위해서는 거의 3000번의 전화가 필요했습니다.모집단의 단순임의표본은 "단순하지 않고 임의적이지 않을 수도 있습니다."[19]
예상오류에 대한 오보 또는 오해
한 연구팀이 3억 명의 사람들이 어떤 주제에 대해 어떻게 느끼는지 알고 싶다면, 그들 모두에게 물어보는 것은 비현실적일 것입니다.그러나 팀이 약 1,000명으로 구성된 임의의 표본을 선택할 경우, 이 그룹이 제공한 결과가 질문을 모두 받았다면 더 큰 그룹이 말했을 것을 나타내는 것이라고 상당히 확신할 수 있습니다.
이 신뢰도는 실제로 중심 극한 정리와 다른 수학적 결과에 의해 정량화될 수 있습니다.신뢰는 실제 결과(큰 그룹의 경우)가 추정치의 특정 범위(작은 그룹의 경우 그림) 내에 있을 확률로 표시됩니다.이 수치는 통계 조사에서 자주 인용되는 "플러스 또는 마이너스" 수치입니다.신뢰 수준의 확률 부분은 일반적으로 언급되지 않으며, 그렇다면 95%와 같은 표준 숫자로 가정됩니다.
그 두 숫자는 서로 관계가 있습니다.설문조사가 95% 신뢰에서 ±5%의 추정오차를 가질 경우, 99% 신뢰에서 ±6.6%의 추정오차도 갖습니다.±95% 신뢰 시 x x는 정규 분포 모집단의 99% 신뢰 시 항상 ± x 입니다.
추정된 오차가 작을수록 주어진 신뢰 수준에서 필요한 표본이 커집니다(예: 95.4% 신뢰).
- ±1%는 10,000명이 필요합니다.
- ±2%면 2,500명이 필요합니다.
- ±3%는 1,111명이 필요합니다.
- ±4%면 625명이 필요합니다.
- ±5%면 400명이 필요합니다.
- ±10%면 100명이 필요합니다.
- ±20%는 25명이 필요합니다.
- ±25%면 16명이 필요합니다.
- ±50%면 4명이 필요합니다.
사람들은 신뢰도 수치가 생략되기 때문에 실제 결과가 추정된 오차 내에 있다는 100% 확신이 있다고 가정할 수 있습니다.이것은 수학적으로 정확하지 않습니다.
많은 사람들이 표본의 임의성이 매우 중요하다는 것을 깨닫지 못할 수도 있습니다.실제 여론조사는 전화로 진행되는 경우가 많은데, 전화가 없는 사람은 배제하고, 전화가 두 대 이상 있는 사람은 포함하는 것을 선호하며, 거부하는 사람보다 전화조사에 참여할 의사가 있는 사람은 포함하는 것을 선호하는 등 여러 가지 방식으로 표본을 왜곡하고 있습니다.비임의 표본 추출은 추정된 오차를 신뢰할 수 없게 만듭니다.
반면에, 사람들은 모든 사람들이 불리는 것이 아니기 때문에, 또는 그들 자신이 결코 여론조사를 하지 않기 때문에, 통계가 본질적으로 신뢰할 수 없다고 생각할 수도 있습니다.사람들은 몇천명의 여론조사만으로는 수천만명의 사람들의 의견에 대한 자료를 얻는 것이 불가능하다고 생각할 지도 모릅니다.이 또한 부정확합니다.[a]완전한 편향되지 않은 표본 추출과 정확한 답변이 있는 여론조사는 수학적으로 결정된 오차 한계를 가지고 있으며, 이 오차 한계는 오직 여론조사를 실시한 사람들의 수에 따라 달라집니다.
그러나 설문조사의 경우 오차 한계가 하나만 보고되는 경우가 많습니다.모집단 부분군에 대한 결과가 보고되면 더 큰 오차 한계가 적용되지만 이는 명확하지 않을 수 있습니다.예를 들어, 1,000명을 대상으로 한 설문조사에는 특정 민족 또는 경제 집단의 100명이 포함되어 있을 수 있습니다.해당 그룹에 초점을 맞춘 결과는 전체 모집단에 대한 결과보다 훨씬 신뢰성이 떨어집니다.전체 표본의 오차 한계가 4%이면 이러한 부분군의 오차 한계는 약 13%가 될 수 있습니다.
또한 모집단 조사에는 다른 많은 측정 문제들이 있습니다.
위에서 언급한 문제는 모집단 조사뿐만 아니라 모든 통계 실험에 적용됩니다.
거짓 인과관계
통계 검정에서 A와 B 사이의 상관 관계가 나타나는 경우 일반적으로 다음과 같은 여섯 가지 가능성이 있습니다.
- A는 B를 일으킵니다.
- B가 A를 일으킵니다.
- A와 B 둘 다 부분적으로 서로를 유발합니다.
- A와 B는 모두 세 번째 요인인 C에 의해 발생합니다.
- B는 A와 상관관계가 있는 C에 의해 발생합니다.
- 관측된 상관관계는 순전히 우연에 의한 것이었습니다.
여섯 번째 가능성은 변수들 사이에 실제로 관계가 없는 경우 관측된 상관관계가 단지 우연에 의해서만 클 확률을 계산할 수 있는 통계적 검정에 의해서 정량화될 수 있습니다.그러나, 비록 그 가능성이 작더라도, 다른 다섯 개의 가능성은 여전히 존재합니다.
해변에서 아이스크림을 사는 사람들의 수가 해변에서 익사하는 사람들의 수와 통계적으로 관련이 있다면, 아이스크림이 익사를 유발한다고 주장하는 사람들은 없을 것입니다. 왜냐하면 그렇지 않다는 것이 명백하기 때문입니다. (이 경우, 익사와 아이스크림 구매 모두는 분명히 세 번째 요인, 즉 해변에 있는 사람들의 수에 의해 관련이 있습니다.
이 오류는 예를 들어 화학 물질에 노출되면 암이 발생한다는 것을 증명하는 데 사용될 수 있습니다.'아이스크림을 사는 사람의 수'를 '화학물질 X에 노출된 사람의 수'로, '물에 빠진 사람의 수'를 '암에 걸린 사람의 수'로 바꾸면 많은 사람들이 당신을 믿을 것입니다.이러한 상황에서는 실제 효과가 없더라도 통계적 상관관계가 있을 수 있습니다.예를 들어, 화학 공장 부지가 "위험하다"는 인식이 있다면 (실제 그렇지 않더라도) 그 지역의 부동산 가치가 떨어지고, 더 많은 저소득층이 그 지역으로 이주하도록 유도할 것입니다.저소득층이 고소득층보다 암에 걸릴 가능성이 더 높은 경우(예를 들어 식생활이 열악하거나 의료 서비스 접근성이 낮기 때문에), 화학 물질 자체가 위험하지 않음에도 불구하고 암 발병률이 높아질 것입니다.이것은 몇몇 초기의 연구들이 전력선으로부터의 전자기장과 암 사이의 연관성을 보여주는 것에서 정확히 일어난 것이라고[22] 믿어집니다.[23]
잘 설계된 연구에서는 어떤 사람은 무작위로 '치료집단'에, 어떤 사람은 무작위로 '통제집단'에 할당하고, 어떤 사람은 치료집단에 치료를 하고 통제집단에는 치료를 하지 않음으로써 잘못된 인과관계의 효과를 제거할 수 있습니다.위의 예에서 연구원은 한 그룹의 사람들을 화학 물질 X에 노출시키고 두 번째 그룹은 노출시키지 않을 수 있습니다.연구자는 첫 번째 그룹이 암 발병률이 높다면, 누가 노출되는지를 통제했기 때문에 노출 여부에 영향을 미치는 세 번째 요인이 없다는 것을 알고, 사람들을 노출 그룹과 비노출 그룹에 무작위로 할당했습니다.그러나 많은 응용 프로그램에서 실제로 이러한 방식으로 실험을 수행하는 것은 엄청나게 비용이 많이 들고, 실행이 불가능하고, 비윤리적이고, 불법적이거나, 전혀 불가능합니다.예를 들어, IRB가 독성을 시험하기 위해 사람들을 위험 물질에 의도적으로 노출시키는 실험을 받아들일 가능성은 매우 낮습니다.그러한 유형의 실험의 명백한 윤리적 의미는 연구자들의 인과관계를 경험적으로 시험하는 능력을 제한합니다.
귀무가설의 증명
통계 검정에서는 충분한 데이터가 잘못된 것을 증명할 때까지 귀무 가설( 이 유효한 것으로 간주됩니다.그러면 H 이 (가) 기각되고 가설 {\A}})이 올바른 것으로 증명됩니다. 이 (가) 참이지만, 확률은 유의 수준)로 표시됩니다.이는 합리적인 의심 {\ \을 넘어 유죄 {\A가 입증될 때까지 피고인을 무죄(0 {\H_}})로 보는 사법절차와 비교될 수 있습니다.
그러나 가 H0{\}}을(를) 거부할 수 있는 충분한 증거를 제공하지 않으면 이 (가) 자동으로 올바른 것으로 증명되지 않습니다예를 들어, 담배 생산자가 제품이 안전하다는 것을 입증하고자 하는 경우, 흡연자 표본이 적은 반면 비흡연자 표본이 적은 경우 쉽게 검사를 수행할 수 있습니다.폐암에 걸릴 가능성은 거의 없습니다. (폐암에 걸린다고 해도 을(를) 거부하려면 그룹 간 차이가 매우 커야 합니다.)따라서 흡연이 위험한 경우에도 을(를) 거부하지 않을 가능성이 높습니다.H 0 {\을 (를) 받아들이면 흡연이 무해하다는 것이 자동으로 입증되지 않습니다테스트의 검정력이 하여H 0 {\을(를) 기각할 수 없으므로테스트를 사용할 수 없으며 H 의 "proof" 값도 null입니다.
이것은 위와 같은 사법적 유사체를 이용하여 유죄판결을 하기에는 증거가 불충분하다는 이유만으로 석방되는 진정한 유죄판결을 받은 피고인과 비교될 수 있습니다.이는 피고인의 무죄를 입증하는 것이 아니라 유죄판결의 증거가 부족할 뿐입니다.
"... 귀무가설은 결코 증명되거나 성립되지 않지만, 실험 과정에서 반증될 가능성이 있습니다.모든 실험은 사실에 귀무 가설을 반증할 기회를 주기 위해서만 존재한다고 할 수 있습니다." (실험 설계의 피셔) Fisher의 "유의성 검정"(null 가설이 절대 받아들여지지 않는 경우)과 "가설 검정"(일부 가설이 항상 받아들여지는 경우)의 병합으로 인해 발생하는 이중 음의 논리와 용어의 사용을 포함하여 많은 혼란의 이유가 존재합니다.
통계적 유의성을 실제적 유의성과 혼동
통계적 유의성은 확률의 측도이고, 실제적 유의성은 효과의 측도입니다.[24]대머리 치료법은 복숭아 솜털이 드문드문 난 것이 보통 이전에 벌거벗은 대개 이전에 벌거벗은 두피를 덮습니다.추운 날씨에 더 이상 모자가 필요 없고, 이발사가 윗도리를 얼마나 벗어야 하는지 물어볼 때 그 치료법은 실질적으로 중요합니다.대머리들은 통계적으로나 실질적으로 중요한 치료법을 원합니다.그것은 아마도 효과가 있을 것이고 만약 효과가 있다면, 큰 털 효과가 있을 것입니다.과학적 출판은 종종 통계적 의미만을 요구합니다.이로 인해 (지난 50년간) 통계적 유의성 검정이 통계의 오용이라는 불만이 제기되었습니다.[25]
자료준설
데이터 준설은 데이터 마이닝의 남용입니다.데이터 준설에서는 테스트할 가설에 대한 사전 정의된 선택 없이 상관 관계를 찾기 위해 대규모 데이터 컴파일을 검사합니다.두 모수 간의 관계를 설정하는 데 필요한 신뢰 구간은 일반적으로 95%로 선택되므로(관측된 관계가 확률적 확률에 기인하지 않을 확률이 95%임을 의미함), 따라서 완전 확률 변수 집합 두 개 사이의 상관 관계를 찾을 확률은 5%입니다.데이터 준설 노력이 일반적으로 변수가 많은 대규모 데이터 세트를 검사하고, 따라서 더 많은 수의 변수 쌍을 검사한다는 점을 고려하면, 거짓이지만 명백하게 통계적으로 유의미한 결과가 이러한 연구에 의해 발견될 것이 거의 확실합니다.
데이터 준설은 가능한 가설을 찾는 유효한 방법이지만, 원래 준설에서 사용되지 않은 데이터를 사용하여 가설을 검정해야 합니다.오용은 그 가설이 더 이상의 검증 없이 사실로 진술될 때 발생합니다.
"그 가설을 처음 제시한 것과 동일한 데이터에 대해 정당하게 가설을 검정할 수 없습니다.치료법은 확실합니다.가설이 있으면 지금 생각하는 효과를 구체적으로 검색하도록 연구를 설계합니다.만약 이 테스트의 결과가 통계적으로 유의하다면, 당신은 마침내 진짜 증거를 갖게 되는 것입니다."[26]
자료조작
비공식적으로 "데이터 위조"라고 불리는 이 관행은 선택적 보고(출판 편향 참조)와 심지어 단순히 잘못된 데이터를 만드는 것까지 포함합니다.
선택적 보고의 예는 매우 많습니다.가장 쉽고 일반적인 예는 다른 결과나 가설과 모순되는 "데이터 실행"을 무시한 채 선호하는 가설과 일치하는 패턴을 따르는 결과 그룹을 선택하는 것입니다.
일반적으로 과학자들은 다른 연구자들이 재현할 수 없는 연구 결과의 타당성에 의문을 제기합니다.하지만, 어떤 과학자들은 그들의 자료와 방법을 발표하는 것을 거부합니다.[27]
데이터 조작은 가장 정직한 통계 분석에서 심각한 문제/고려 사항입니다.특이치, 결측 데이터 및 비정규성은 모두 통계 분석의 유효성에 악영향을 미칠 수 있습니다.분석을 시작하기 전에 데이터를 조사하고 실제 문제를 해결하는 것이 적절합니다."[I]어떤 산점도에도 클라우드의 주요 부분에서 다소 떨어져 있는 점이 있을 것입니다. 이 점들은 원인을 위해서만 거부되어야 합니다."[28]
기타오류
유사 복제는 분산 분석과 관련된 기술적 오류입니다.복잡성은 단일 표본(N=1)에 대해 통계 분석을 시도하고 있다는 사실을 숨깁니다.이 축퇴된 경우에는 분산을 계산할 수 없습니다(0으로 나눕니다).(N=1)은 항상 연구자에게 의도 편향과 실제 결과 간의 통계적 상관 관계를 가장 높게 제공합니다.
도박자의 오류는 미래의 가능성을 측정할 수 있는 사건이 이미 발생한 후에 발생할 가능성이 동일하다고 가정합니다.따라서, 만약 누군가가 이미 9개의 동전을 던졌고 각각의 동전이 앞면이 나왔다면, 사람들은 10번째 앞면이 나올 확률이 1023:1일 것이라고 생각하는 경향이 있는데, 실제로 10번째 앞면이 나올 확률이 50%라고 가정할 때 (첫 번째 동전이 던져지기 전의 확률) 사람들은 1023:1이라고 생각합니다.
검사의 오류는[29] 명백한 범죄사건이 임의의 우연일 확률을 피의자가 무죄일 확률과 동일하다고 가정합니다.영국에서 유명한 예는 샐리 클라크가 영아 돌연사 증후군(SIDS)으로 죽은 것으로 보이는 두 아들을 살해한 것에 대한 부당한 유죄 판결입니다.지금은 신뢰할 수 없는 로이 메도우 경은 전문가 증언에서 SIDS의 희귀성 때문에 클라크가 무죄일 확률은 7천 3백만 분의 1이라고 주장했습니다.이것은 나중에 왕립 통계 학회에 의해 의문이 제기되었습니다;[30] 메도스의 수치가 정확하다고 가정하면, 두 아이의 설명되지 않은 죽음을 야기했을 가능성이 가장 높은 결론을 내리기 위해 서로에 대해 가능한 모든 설명을 따져봐야 합니다.이용 가능한 데이터에 따르면 가능성은 이중 살인에 비해 이중 SIDS에 유리할 것으로 보입니다.[31]7천 3백만 분의 1의 수치는 부유한 금연 가정의 아기가 SIDS로 사망할 확률을 찾아 제곱한 것으로 또한 오해의 소지가 있습니다: 이것은 유전학과 같은 요소가 없다고 가정할 때, 각각의 죽음을 통계적으로 독립적인 것으로 잘못 취급합니다.그렇게 되면 두 남매가 SIDS로 사망할 가능성이 높아집니다.[32][33]이것은 클라크 가족의 SIDS 확률이 모든 부유한 금연 가정의 평균과 동일하다고 가정하기 때문에 생태학적 오류의 예이기도 합니다. 사회 계층은 매우 복잡하고 다각적인 개념으로 교육, 노동 분야 및 기타 많은 변수가 있습니다.한 개인이 주어진 그룹의 나머지와 동일한 속성을 갖는다고 가정하면 다른 변수의 효과를 설명할 수 없으며, 이는 오해를 불러일으킬 수 있습니다.[33]샐리 클라크의 유죄 판결은 결국 뒤집혔고 메도우는 진료 등록부에서 내려졌습니다.[34]
터무니없는 오류.확률은 실제(원격인 경우) 가능성을 무시하는 단순한 모형을 기반으로 합니다.포커 플레이어들은 상대방이 카드보다 총을 뽑을 수 있다고 생각하지 않습니다.보험 가입자(및 정부)는 보험사가 지불 능력을 유지할 것이라고 가정하지만 AIG와 시스템적 위험을 고려합니다.
기타 오남용 유형
다른 오용으로는 사과와 오렌지를 비교하는 것, 잘못된 평균을 사용하는 것,[35] 평균으로 회귀하는 것,[36] 그리고 우산 문구로 쓰레기가 들어가는 것, 쓰레기가 나가는 것 등이 있습니다.[37]일부 통계는 문제와 무관합니다.[38]
안스콤의 사중주는 단순한 설명 통계의 단점(그리고 수치 분석 전 데이터 플롯의 값)을 예시하는 구성 데이터 세트입니다.
참고 항목
참고문헌
메모들
원천
- ^ Spirer, Spirer & Jaffe 1998, p. 1.
- ^ Gardenier, John; Resnik, David (2002). "The misuse of statistics: concepts, tools, and a research agenda". Accountability in Research: Policies and Quality Assurance. 9 (2): 65–74. doi:10.1080/08989620212968. PMID 12625352. S2CID 24167609.
- ^ Fischer, David (1979). Historians' fallacies: toward a logic of historical thought. New York: Harper & Row. pp. 337–338. ISBN 978-0060904982.
- ^ Strasak, Alexander M.; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Statistical errors in the medical research-a review of common pitfalls". Swiss Medical Weekly. 137 (3–4): 44–49. doi:10.4414/smw.2007.11587. PMID 17299669. 이 글에서는 최선의 통계적 관행이 아닌 것은 통계의 잠재적 오용과 동일시됩니다.몇 페이지에서 47개의 잠재적인 통계적 오류가 논의됩니다; 연구 설계, 자료 분석, 문서화, 발표 및 해석의 오류들."[S]통계학자들은 연구 설계에 초기에 참여해야 하는데, 현 시점에서의 실수는 큰 영향을 미쳐 이후의 모든 의학 연구 단계에 부정적인 영향을 미칠 수 있기 때문입니다."
- ^ Indrayan, Abhaya (2007). "Statistical fallacies in orthopedic research". Indian Journal of Orthopaedics. 41 (1): 37–46. doi:10.4103/0019-5413.30524. PMC 2981893. PMID 21124681. 모든 유형의 통계에 대한 의료 오용의 풍부한 목록을 포함합니다.
- ^ Spirer, Spirer & Jaffe 1998, 7장과 8장.
- ^ Spirer, Spirer & Jaffe 1998, 3장.
- ^ Spirer, Spirer & Jaffe 1998, 4장.
- ^ Adler, Robert; John Ewing; Peter Taylor (2009). "Citation statistics". Statistical Science. 24 (1): 1–14. doi:10.1214/09-STS285.
- ^ Spirer, Spirer & Jaffe 1998, 챕터 제목.
- ^ Spirer, Spirer & Jaffe 1998, 5장.
- ^ Weatherburn, Don (November 2011), "Uses and abuses of crime statistics" (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice, NSW Bureau of Crime Statistics and Research, 153, ISBN 9781921824357, ISSN 1030-1046, archived from the original on June 21, 2014Weatherburn, Don (November 2011), "Uses and abuses of crime statistics" (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice, NSW Bureau of Crime Statistics and Research, 153, ISBN 9781921824357, ISSN 1030-1046, archived from the original on June 21, 2014
{{citation}}
CS1 maint : URL(링크) 부적합범죄 통계에 관한 이 호주 보고서는 데이터를 해석하고 잘못 해석하는 많은 예를 제공합니다."범죄에 대한 정보에 대한 미디어 접근성의 증가는 범죄에 대한 미디어 보도의 질적 향상과는 비교가 되지 않습니다.언론에 의한 범죄 통계의 오용은 법질서에 대한 합리적인 논의를 방해하고 있습니다."언론 오남용 혐의 중에는 데이터의 선별적 사용, 사실의 선별적 보도, 오해의 소지가 있는 해설, 사실의 잘못된 전달, 오해의 소지가 있는 헤드라인 등이 포함되어 있습니다.경찰과 정치인들도 이 통계를 악용했습니다. - ^ Krugman, Paul (1994). Peddling prosperity: economic sense and nonsense in the age of diminished expectations. New York: W.W. Norton. p. 111. ISBN 0-393-03602-2.
- ^ Spire, Spire & Jaffe 1998.
- ^ 카네만 2013, 102쪽.
- ^ 무어 & 노츠 2006, 페이지 59.
- ^ 무어 & 노츠 2006, 페이지 97.
- ^ 무어와 맥케이브 2003, 페이지 252-254.
- ^ Moore & Notz 2006, p. 53, 실제 세계에서의 표본 조사.
- ^ Freedman, Pisani & Purves 1998, 22장: 고용과 실업의 측정, p. 405.
- ^ Freedman, Pisani & Purves 1998, 389-390쪽
- ^ Farley, John W. (2003). Barrett, Stephen (ed.). "Power Lines and Cancer: Nothing to Fear". Quackwatch.
- ^ Vince, Gaia (2005-06-03). "Large study links power lines to childhood cancer". New Scientist. Archived from the original on August 16, 2014.Vince, Gaia (2005-06-03). "Large study links power lines to childhood cancer". New Scientist. Archived from the original on August 16, 2014.
{{cite news}}
CS1 maint: 부적합한 URL (link) 인용: - ^ 무어와 맥케이브 2003, 페이지 463.
- ^ Rozeboom, William W. (1960). "The fallacy of the null-hypothesis significance test". Psychological Bulletin. 57 (5): 416–428. doi:10.1037/h0042040. PMID 13744252.
- ^ 무어와 맥케이브 2003, 페이지 466.
- ^ Neylon, C (2009). "Scientists lead the push for open data sharing". Research Information. Europa Science. 41: 22–23. ISSN 1744-8026. Archived from the original on December 3, 2013.
{{cite journal}}
: CS1 maint : URL(링크) 부적합 - ^ Freedman, Pisani & Purves 1998, 9장: 상관관계에 대한 더보기, §3: 일부 예외적인 경우들
- ^ Seife, Charles (2011). Proofiness: how you're being fooled by the numbers. New York: Penguin. pp. 203–205 and Appendix C. ISBN 9780143120070. 영국의 악명 높은 사건에 대해 토론합니다.
- ^ 영국왕립통계학회 (2001년 10월 23일)."("Royal Statistical Society concerned by issues raised in Sally Clark case" (PDF). Archived from the original (PDF) on 2011-08-24.28.0KB)"
- ^ Hill, R. (2004). "Multiple sudden infant deaths – coincidence or beyond coincidence?". Paediatric and Perinatal Epidemiology. 18 (5): 320–6. doi:10.1111/j.1365-3016.2004.00560.x. PMID 15367318.
- ^ "Beyond reasonable doubt". Plus Maths. Retrieved 2022-04-01.
- ^ a b Watkins, Stephen J. (2000-01-01). "Conviction by mathematical error?: Doctors and lawyers should get probability theory right". BMJ. 320 (7226): 2–3. doi:10.1136/bmj.320.7226.2. ISSN 0959-8138. PMC 1117305. PMID 10617504.
- ^ Dyer, Clare (2005-07-21). "Professor Roy Meadow struck off". BMJ. 331 (7510): 177. doi:10.1136/bmj.331.7510.177. ISSN 0959-8138. PMC 1179752. PMID 16037430.
- ^ 허프 1954, 2장.
- ^ 카네만 2013, 17장.
- ^ 후크 1983년, § 50.
- ^ Campbell 1974, 3장: 무의미한 통계학
추가열람
- Campbell, Stephen (1974). Flaws and fallacies in statistical thinking. Prentice Hall. ISBN 0-486-43598-9.
- Christensen, R.; Reichert, T. (1976). "Unit Measure Violations in Pattern Recognition, Ambiguity and Irrelevancy". Pattern Recognition. 8 (4): 239–245. Bibcode:1976PatRe...8..239C. doi:10.1016/0031-3203(76)90044-3.
- Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "Misusage of Statistics in Medical Researches" (PDF). European Journal of General Medicine. 4 (3): 127–133. doi:10.29333/ejgm/82507. Archived from the original on November 13, 2014.
{{cite journal}}
: CS1 maint : URL(링크) 부적합 - Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "Review of Reliability and Factors Affecting the Reliability" (PDF). InterStat. Archived from the original on August 28, 2013.
{{cite journal}}
: CS1 maint : URL(링크) 부적합 - Freedman, David; Pisani, Robert; Purves, Roger (1998). Statistics (3rd ed.). W.W. Norton. ISBN 978-0-393-97083-8.
- Hooke, Robert (1983). How to tell the liars from the statisticians. New York: M. Dekker. ISBN 0-8247-1817-8.
- Huff, Darrell (1954). How to Lie with Statistics. W. W. Norton & Company. LCCN 53013322. OL 6138576M.
- Kahneman, Daniel (2013). Thinking, fast and slow. New York: Farrar, Straus and Giroux. ISBN 9780374533557.
- Moore, David; McCabe, George P. (2003). Introduction to the practice of statistics (4th ed.). New York: W.H. Freeman and Co. ISBN 0716796570.
- Moore, David; Notz, William I. (2006). Statistics: concepts and controversies (6th ed.). New York: W.H. Freeman. ISBN 9780716786368.
- Spirer, Herbert; Spirer, Louise; Jaffe, A. J. (1998). Misused statistics (revised and expanded 2nd ed.). New York: M. Dekker. ISBN 978-0824702113. 그 책은 수백 가지 오용 사례를 바탕으로 하고 있습니다.
- 올드버그, T. 그리고 R.Christensen (1995) "Erratic Measure" for the Energy Industry 1995, 미국기계공학회.ISBN 0-7918-1298-7 (1-6페이지) ndt.net 에서 웹에 재공표
- Oldberg, T. (2005) "결함검출시험 신뢰도 통계에서의 윤리적 문제", 미국 비파괴검사학회 금문장 연설ndt.net 에 의해 웹에 게시됨
- 스톤, M. (2009) 수치화 실패: 화이트홀의 값비싼 통계적 추론 무시, 시비타스, 런던.ISBN 1-906837-07-4
- Galbraith, J.; Stone, M. (2011). "The abuse of regression in the National Health Service allocation formulae: Response to the Department of Health's 2007 'resource allocation research paper'". Journal of the Royal Statistical Society, Series A. 174 (3): 517–528. doi:10.1111/j.1467-985X.2010.00700.x. S2CID 118029429.