통계 데이터 분석

◼️1. 통계의 오류

통계는 거짓말을 한다.

Dec 13, 2023

◼️1. 통계의 오류

Contents

데이터 수집 관련 오류 데이터 해석 관련 오류

통계는 거짓말을 한다.

reference:

Video preview

데이터 수집 관련 오류

데이터 수집 관련 오류는 주로 데이터를 수집하고 분석하는 과정에서 발생합니다. 표본의 대표성, 표본 추출 방법, 측정 방법, 그리고 대상의 선택과 방법에 따른 편향 등 여러 요인이 이런 오류를 유발할 수 있습니다. 이러한 오류는 연구 결과의 신뢰성을 저해하며, 때로는 완전히 잘못된 결론을 내리게 할 수 있습니다.

대표성 오류 법칙 (Representativeness Error)

개념: 표본 추출 시 데이터가 대상을 대표하지 못한 경우 발생하는 오류입니다.

등장배경: 불량한 표본 추출 링이 일반적이었던 시기에 대표성을 갖는 샘플링 방법이 필요하여 등장하게 되었습니다.

간단한 설명: 샘플이 전체 모집단을 대표하지 못할 경우, 실제 모집단의 특성을 잘못 파악하게 됩니다.

예시: 대표성 없는 표본조사를 통해 전체 시장 규모나 소비 행태를 파악하면 정확한 결과가 나오지 않을 수 있습니다.

표본 추출 오류 (Probability Sampling Error)

개념: 표본 추출 시 무작위 추출을 하지 않거나 추출 방법으로 인한 오류입니다.

등장 배경: 확률 표본 추출 방법이 개발되기 전에는 표본 추출 방법에 대한 일관성 없이 진행되어서 이 문제가 발생했답니다.

간단한 설명: 무작위 추출을 하지 않거나 표본 추출할 때 전체 모집단을 대표하지 못할 경우 발생하는 오류입니다.

예시: 모집단을 구성하는 집단의 비율을 고려하지 않은 임의 표본 추출 시, 그룹 간 차이가 없는 것으로 나올 수 있습니다.

관측치에 대한 오류 (Measurement Error)

개념: 데이터 수집 시 측정 오류나 입력 오류로 인해 발생하는 오류

등장배경: 데이터 수집 시 인적 오류나 기계적 오류로 인해 발생하는 오류가 빈번하여 등장

간단한 설명: 데이터 수집 시 인적 오류나 기계적 오류로 인해 데이터가 왜곡되는 현상

예시: 측정 방법이 틀려서 발생하는 측정 오류로 인해, 실제 값을 왜곡하여 데이터를 수집한 경우

선택편향 오류(Selection bias)

개념: 데이터 수집 시 대상이나 방법을 선택함에 따라 발생하는 오류

등장배경: 데이터 수집 시 선택과 집중을 피하기 위해 등장

간단한 설명: 데이터 수집 시, 대상이나 방법을 선택함에 따라 데이터 편향이 발생하는 현상

예시: 특정 집단에 대해서만 조사를 수행하여 전체 모집단의 특성을 파악하지 못하는 경우

데이터 해석 관련 오류

데이터 해석 관련 오류는 데이터를 분석하고 결과를 도출하는 과정에서 발생합니다. 이러한 오류는 주로 변수 간의 관계를 잘못 해석하거나, 통계적 방법을 잘못 사용함으로써 발생합니다. 이러한 오류는 연구 결과의 신뢰성을 저해하며, 때로는 잘못된 결론을 도출하게 됩니다.

심슨 패러독스 (Simpson's Paradox)

개념: 두 개 이상의 그룹으로 나뉘어진 데이터를 분석할 때, 그룹별로 나누어진 결과와 전체 결과가 상반된 결과를 보이는 현상입니다.

등장 배경: 심슨 패러독스는 변수 간의 인과 관계를 이해하지 못할 수 있기 때문에 발생합니다.

간단한 설명: 전체 데이터와 각 그룹의 데이터 간 상관 관계가 반대로 나타나는 현상입니다. 이는 그룹 간 크기 차이가 있을 때 발생합니다.

예시: 예를 들어, A와 B 두 그룹이 있을 때, A 그룹과 B 그룹 각각에서는 A 그룹의 비율이 더 높게 나오지만, 전체 데이터를 보면 B 그룹의 비율이 더 높게 나오는 경우가 있습니다.

사후 분석 오류 (Post Hoc Error)

개념: 두 변수 간의 관계를 분석하는 과정에서 다른 변수의 영향력을 제거하지 않았거나, 분석 프로세스에서 다른 변수를 고려하지 않았을 때 발생하는 오류

등장 배경: 연구자나 조사자가 분석 과정에서 다른 변수의 영향력을 고려하지 않았을 때, 결과에 대한 신뢰성이 떨어지기 때문에 등장

간단한 설명: 두 변수 간의 관계를 분석하는 과정에서 다른 변수의 영향력을 고려하지 않거나, 분석 프로세스에서 다른 변수를 고려하지 않아서 결과가 왜곡되는 현상

예시: A와 B 변수 간의 관계를 분석할 때, C 변수의 영향력을 고려하지 않아서 A와 B 간의 관계가 왜곡되는 경우

평균의 오류 (Error of Averages)

page icon

개념: 평균을 사용하여 전체 모집단의 특성을 파악할 때, 표본과 모집단의 분포가 다른 경우 발생하는 오류

등장배경: 평균은 데이터를 파악하는데 많이 사용되지만, 표본과 모집단의 분포가 다르면 평균을 사용한 결과가 왜곡될 수 있기 때문에 등장

간단한 설명: 평균은 데이터를 파악하는데 많이 사용되지만, 표본과 모집단의 분포가 다르면 평균을 사용한 결과가 왜곡될 수 있습니다.

예시: 만약 한 학급의 평균 IQ가 100이라면, 다른 학급의 평균 IQ도 100일 것이라는 가정은 옳지 않을 수 있습니다. 이러한 오류를 방지하기 위해서는 분산, 표준편차 또는 범위와 같은 다른 통계 지표를 함께 고려해야 합니다.

다중공선성 오류(Multicollinearity Error)

page icon

개념: 회귀분석 시 독립변수 간의 상관관계가 높을 경우 발생하는 오류

등장배경: 다중공선성이 발생하면 회귀분석 결과를 신뢰할 수 없기 때문에 등장

간단한 설명: 다중공선성은 독립변수들 간에 강한 상관관계가 있는 경우 발생하는데, 이는 회귀분석 시에 문제가 되는데요. 일반적으로는 상관관계가 강한 두 독립변수 중 하나를 제거하거나, 변수 변환을 통해 다중공선성을 해결합니다.

예시: 독립변수 간의 상관관계가 높은 경우, 회귀분석 결과의 오차가 커질 수 있음

Share article

More articles

◼️3. 데이터 분석에 꼭 필요한 6가지 단계

December 19, 2023

◼️3. 데이터 분석에 꼭 필요한 6가지 단계

◼️2. 분석 결과가 왜 이래?

December 17, 2023

◼️2. 분석 결과가 왜 이래?

datarichard

RSS·Powered by Inblog