Excel

통계적 데이터 분석 / 모델링 : t-test

retill28 2024. 6. 28. 01:27

통계의 갈래 

기술통계학 : 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법.표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함

추론 통계학 : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법 점 추정, 구간 추정을 하거나 가설을 검정한다. 

 

  1. 가설 검정 - 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
  2. 귀무 가설(𝐻0, 영 가설) 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)
  3. 대립 가설(𝐻1, 연구 가설) 귀무 가설에 대립하는 명제. 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음 

 

대립가설에는 3가지 형태가 있다. (ex) 귀무 가설 : 우리나라 남학생의 신장 평균(μ)은 170cm이라는 가설의 검정

  1. 제 1형 : 𝐻1 : μ ≠ 170   →  양측 검정 
  2. 제 2형 : 𝐻1 : μ < 170   →  단측 검정
  3. 제 3형 : 𝐻1 : μ > 170   →  단측 검정

 

 

 

 

p - value (유의확률) 

그렇다면 가설 검정의 기준은 무엇으로 잡아야할까? 

p-value(유의확률)을 사용한다. 

 

유의확률 : 귀무가설이 맞다는 전제 하에, 표본에서 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률 

표본과 전체 같은 집단이나 관계 사이에서 차이가 생기는 것이 우연인지, 우연이 아닌지( 변수에 의한 것인지) 에 대한 것. 

0..05 미만일 때 우연히 생기는 것이 아니라는 (어떤 변수에 의한 것이라는)  충분한 근거가 있다. 

단, 유의확률은 효과나 변화의 정도 (정관계이냐 역관계이냐) 등을 알 수는 없다.

따라서 상관 계수 𝒓이나 결정 계수 𝒓 𝟐 등의 지표를 함께 활용해야 한다. 

 

 

 

 

t-test

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정한다. 

  1. 변수(집단) 선택
  2. F- 검정 : 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
    더보기
    귀무 가설 : 두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준)
    대립 가설 : 두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)
    (여기서 p란 P-value를 말한다.)

    P 값이 0.05보다 크므로 두 집단의 분산에 유의미한 차이가 없음 → 등분산 가정 t-test
    P 값이 0.05보다 작으므로 두 집단의 분산에 유의미한 차이가 있음 → 이분산 가정 t-test
  3. t-test 
    더보기
    t-test 가설 설정 
    t-test의 귀무 가설 : 두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준)
    t-test의 대립 가설 : 두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준)
  4. 결과 해석

 

 

 

t-test 실습과정 (Excel)

  1. 1변수(집단) 선택 (데이터 선택)
    제품 패키지 변화에 따른 매출액 변화 검정 - 패키지를 변경해야 할까 / 말아야 할까 

  2. F검정 

  3. t-test

  4. 결과 분석  - 변경 전 후 유의미한 차이가 발생했다. 세가지의 대립가설 중, '3. 매출액이 떨어졌을 것이다.'에 해당하므로 패키지를 변경해선 안된다. 


'Excel' 카테고리의 다른 글

통계적 데이터 분석 / 모델링 : 시계열 데이터 분석  (0) 2024.06.28
통계적 데이터 분석 / 모델링 : 회귀분석  (0) 2024.06.28
통계  (0) 2024.06.28
탐색적 데이터 분석  (1) 2024.06.22
대시보드 완성하기  (0) 2024.06.21