통계의 갈래
기술통계학 : 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법.표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함
추론 통계학 : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법 점 추정, 구간 추정을 하거나 가설을 검정한다.
- 가설 검정 - 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
- 귀무 가설(𝐻0, 영 가설) 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)
- 대립 가설(𝐻1, 연구 가설) 귀무 가설에 대립하는 명제. 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음
대립가설에는 3가지 형태가 있다. (ex) 귀무 가설 : 우리나라 남학생의 신장 평균(μ)은 170cm이라는 가설의 검정
- 제 1형 : 𝐻1 : μ ≠ 170 → 양측 검정
- 제 2형 : 𝐻1 : μ < 170 → 단측 검정
- 제 3형 : 𝐻1 : μ > 170 → 단측 검정
p - value (유의확률)
그렇다면 가설 검정의 기준은 무엇으로 잡아야할까?
p-value(유의확률)을 사용한다.
유의확률 : 귀무가설이 맞다는 전제 하에, 표본에서 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률
표본과 전체 같은 집단이나 관계 사이에서 차이가 생기는 것이 우연인지, 우연이 아닌지( 변수에 의한 것인지) 에 대한 것.
0..05 미만일 때 우연히 생기는 것이 아니라는 (어떤 변수에 의한 것이라는) 충분한 근거가 있다.
단, 유의확률은 효과나 변화의 정도 (정관계이냐 역관계이냐) 등을 알 수는 없다.
따라서 상관 계수 𝒓이나 결정 계수 𝒓 𝟐 등의 지표를 함께 활용해야 한다.
t-test
두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정한다.
- 변수(집단) 선택
- F- 검정 : 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
더보기귀무 가설 : 두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준)
대립 가설 : 두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)
(여기서 p란 P-value를 말한다.)
P 값이 0.05보다 크므로 두 집단의 분산에 유의미한 차이가 없음 → 등분산 가정 t-test
P 값이 0.05보다 작으므로 두 집단의 분산에 유의미한 차이가 있음 → 이분산 가정 t-test - t-test
더보기t-test 가설 설정
t-test의 귀무 가설 : 두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준)
t-test의 대립 가설 : 두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준) - 결과 해석
t-test 실습과정 (Excel)
- 1변수(집단) 선택 (데이터 선택)
제품 패키지 변화에 따른 매출액 변화 검정 - 패키지를 변경해야 할까 / 말아야 할까 - F검정
- t-test
- 결과 분석 - 변경 전 후 유의미한 차이가 발생했다. 세가지의 대립가설 중, '3. 매출액이 떨어졌을 것이다.'에 해당하므로 패키지를 변경해선 안된다.
'Excel' 카테고리의 다른 글
통계적 데이터 분석 / 모델링 : 시계열 데이터 분석 (0) | 2024.06.28 |
---|---|
통계적 데이터 분석 / 모델링 : 회귀분석 (0) | 2024.06.28 |
통계 (0) | 2024.06.28 |
탐색적 데이터 분석 (1) | 2024.06.22 |
대시보드 완성하기 (0) | 2024.06.21 |