통계
통계학
산술적 방법을 기초로, 다량의 데이터를 관찰하고 정리 분석하는 방법을 연구하는 학문
연구의 대상이 되는 모집단(조사하고자 하는 전체 집단)으로부터 자료를 수집, 정리하고,
표본 정보로부터 자료를 추출한 모집단에 대한 정보, 추론, 의사결정등 다양한 인사이트를 도출한다.
기초 통계용어
- 변량 : 각 데이터의 값 (만 16세 학생 100명의 키)
- 계급 : 변량을 일정 간격으로 나눈 구간 (키 170cm이상 175cm 이하)
- 도수 : 각 계급에 속하는 변량의 개수 (키 170~175cm의 학생은 16명)
- 상대 도수 : 전체 변량 중 각 계급에 속하는 변량의 비율 (계급 키 170~175cm의 상대도수는 16퍼)
- 도수분포표 : 각 계급에 따른 도수를 조사해서 표로 나타낸것
- 히스토그램 : 도수분포표를 시각화해서 보는 방법. 막대그래프 형태로 나타나지만, 가로축이 연속적인 범위에 해당.
- 평균 : 변량의 합들을 변량의 수로 나눈 값 ( 100개의 데이터값을 전부 더해 100으로 나눔)
- 편차 : 변량 - 평균 (키 150cm라는 데이터는 평균 160에 대하여 편차 -10을 갖는다)
- 분산 : 변량이 평균에서 얼마나 떨어져있는지를 보기 위한 값. 편차들의 제곱을 모두 더하여 변량의 개수로 나눔.
- 표준편차 : 분산의 제곱근. 각 값들이 얼마나 흩어져있는지를 나타내는 값.
- 모집단 : 조사 대상이 되는 전체 집합
- 모수 : 모집단에 대한 평균이나 비율처럼 요약된 수치
- 표본 : 모집단을 대표하는 부분. 일부. 모집단을 추정하기 위해 추출한다.
- 모평균 : 모집단의 평균
- 표본평균 : 모집단의 일부인 표본에 대한 평균
- 모분산 : 모집단의 분산
- 표본분산 : 모집단의 일부인 표본에 대한 평균
- 신뢰도 : 값이 알맞은 모평균이라고 믿을 수 있는 정도 ( 주로 95%, 99%)
- 신뢰구간 : 모평균의 추정 구간.
확률변수
확률변수란, 특정 확률로 발생하는 각각의 결과를 표현한 수치들을 뜻하는 변수.
예를 들어 '동전을 두번 던져 그림이 나오는 변수 X'
확률분포란, 확률변수에서 정의된 사건에 대한 값과 그에 대응하는 확률 분포를 함수로 나타낸것
위의 예제애서 X에 대응하는 수는 0,1,2 (그림면이 0번,1번, 2번이 나오는 경우)
각각의 경우에 대한 P(X) = 1/4, 1/2, 1/4 (X가 0일때 1일때, 2일때) 로 나타낼 수 있는데 이것이 확률 분포.
데이터는 범주형 자료(범주 또는 항복의 형태로 나누는것), 수치적 자료(숫자 형태로 측정되는 자료)로 구분할 수 있다.
범주형 자료 : 명목형 자료(순서 상관없이 분류), 순서형(데이터의 순서, 순위가 있음) 자료
수치적 자료 : 이산형 자료(이산적인 값을 가짐), 연속형 자료(연속적인 값을 가짐), 구간형 자료, 비율형 자료
정규분포
자연이나 사회현상을 다룰 때 많이 쓰이며, 연속적으로 발생하는 사건의 확률분포.
평균 μ와 표준편차 σ에 대해 아래의 확률밀도함수를 가지는 분포
아래와 같은 그래프 형태로 나타나며, 대칭축에 해당하는 부분이 평균값을 나타낸다.
즉, 평균에 해당하는 부분의 확률이 가장 높다는 뜻이다.
평균에서 멀어질수록 확률이 점점 줄어들며, 따라서 종모양의 형태로 나타난다.
표준편차가 작을수록 그래프의 높이가 높아진다.
위의 붉은색 그래프 처럼 평균이 0, 표준편차가 1인 정규분포를 표준 정규 분포라고 한다.
표준 정규 분포가 아닌 정규분포들을 표준화라는 과정을 통해 표준 정규 분포로 변환할수 있다.
표준 정규 분포의 성질들을 통해, 원래 분포의 확률들을 구할 수 있다.
예를 들어 사람의 키 분포를 조사하여, 평균이 170, 표준편차가 5인 정규 분포임을 확인해따.
한 사람이 있을 때, 키가 175~180일 확률을 표준정규분포를 통해 구할 수 있다.