Excel

탐색적 데이터 분석

retill28 2024. 6. 22. 17:20

탐색적 데이터 분석 ( EDA, Exploratory Data Analysis)

기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법 

 

기초 통계량 - 데이터의 간결한 요약을 위한 통계값. 자료의 특성을 나타내는 대표성들이 있다. 

  • 중심경향성 : 데이터 분포의 중심을 보여주는 값 ( 최빈값, 중앙값, 산술평균, 가중평균, 기하평균...)
  • 퍼짐정도 : 자료가 얼마나 흩어져있고 모였는지( 분산, 표준편차, 범위. IQR)
  • 왜도 (skewness) : 분포의 좌우 비대칭성 정도 ( 오른쪽 치우짐 - negative, 왼쪽 치우침 - positive)
  • 첨도 (kurtosis) : 분포의 뾰족한 정도. 편차가 큰 데이터가 많을수록 커진다. 이상치의 영향을 많이 받는다. 

 

 

 

 

Excel에서의 데이터 분석  - 기본 함수 사용 

아래와 같은 기본 함수들을 사용해서 각 기초 통계량을 구할 수 있다. 

 

 

 

 

Excel에서의 데이터 분석  - 데이터 분석 사용 

 

1. 데이터 분석도구를 옵션에서 추가

[파일] - [옵션] - [추가 기능] - [관리 : 이동] - [분석 도구 팩] 페크 - 확인 

 

 

2. 데이터 탭 우측 끝에 데이터 탐색이라는 메뉴 클릭 

 

 

3. 아래에서 기술 통계법 사용, 입력 데이터, 출력 위치 등을 제공. 

 

 

4. 결과 

 

 

 

 

결측치 -  데이터에 값이 없는것

여러가지 이유로 데이터엔 결측치가 발생할 수 있다. 

그러나 이 결측지를, 빈칸이라고 마냥 생략하거나, 수치상 0으로 처리하거나 할 수는 없다. 

결측치는 아래와 같이 여러가지로 분류할 수 있다.

 

  •  NA - Not Available (유효하지 않은 값)  - 예 : 양수값만 받는 테이터에 음수가 입력 
  •  NaN - Not a Number (숫자가 아닌)  - 예 : '123'이라고 쓰여 있어도 백이십삼이 아니라 123이라는 텍스트 
  •  Null - 아무것도 존재하지 않음 - 예 : 어느 부서에도 소속되지 않은 외부인은 부서라는 항목에 해당하는 값이 없다.
  • 빈 칸 - 데이터가 입력되지 않음 - 예 : 데이터가 존재함에도 측정된 적이 없다 or 입력이 누락되었다. 

 

그렇다면 결측치는 어떻게 처리해야할까 

결측지가 있는 모든 데이터는 없애야만 할까? 

완전하게 모든 항목에 대해 값이 있는 데이터만 가지고 EDA를 해야 하나. 

 

 

1. 제거 : 결측지가 발생한 데이터를 전부 삭제하는 방법 
가장 쉽고, 간단하게 결측치를 해결할 수 있다. 
전체 데이터 량 중에 얼마나 손실이 될지 알수가 없으므로 손실이 큰 경우엔 그 결과 분석이 정확하다고 할수 없다. 
2. 치환 : 결측치를 적당한 방법으로 대체하는 방법 
적당한 대표값 (평균, 중앙값, 최빈값)으로 결측치를 대체하는 방법
자료의 편향성을 높일 수 있어, 상관관계에서의 왜곡이 발생할 수 있다. 
어떤 대표값이나 치환값을 쓸지에 대한 것은 도메인 지식이 있어야 가능하다.

3. 모델 기반 처리 : 결측치를 예측하는 새로운 모델을 만들어, 결측치를 채운다. 
변수의 특성에 따라 다양한 모뎅을 개발한다 많은 통계적, 수학적 방법이 있는데 Knn 등을 예로 들 수 있다. 

 

 

 

 

 

 

이상치 (Outlier) 

특정 그룹에 분류되지 못하는 값.

지나치게 크거나 작은 값, 혹은 일반적이지 않은 패턴의 값.

평균같은  대표값이나 통게치에 영향을 주므로 데이터 분석에 있어 오류를 유발할 수 있다. 

 

 

 

1. 표준편차

일반적으로 정규 분포 그래프에서 -3σ(표준편차) 미만, +3σ 초과인 값을 말한다.  (그래프 참고)

z- 점수가 3 이상, -3 이하를 이상치로 판단한다. 

https://terms.naver.com/entry.nhn?docId=3569149&cid=58944&categoryId=58970 [출처] 확률/통계 - 정규 분포와 표준 정규 분포❘작성자 예비개발자

 

 

 

 

2. IQR(Inter Quartile Range)

1사분위수와 3사분위수 사이의 거리. 즉, 3사분위수 - 1사분위수 

여기서 4분위수란 데이터를 4등분하는 값을 말한다. 따라서, 2분위 수는 중앙 값 

 

IQR에서 이상치란, 

1사분위수에서 -1.5 x IQR 보다 작은 값 부터 

3사분위수에서  1.5 x IQR 보다 큰 값. 

이를 Excel에서 기초 함수를 사용해 구하면 다음과 같다. 

아래 예에서는 -26.724 이하 65.6344 이상의 값을 이상치라고 볼 수 있다. 

 

 

 

 

 

3. 상자 도표 ( Box Plot )

IQR을 시각적으로 알아보는 방법은 상자 도표 (Box Plot)이다. 

출처 : https://computer-science-student.tistory.com/174

 

상자 도표의 위 아래 선을 넘어가는 값들을 이상치라고 본다. 

IQR 예시에서의 데이터( -26.724 이하 65.6344 이상의 값)를 상자 도표로 표현하면 다음과 같다.

 

 

 

 

어느 방법으로 보든 이상치로 판별되는 범위는 완전히 일치하진 않아도 전반적으로 비슷하다 

 

이상치를 제거하는 것은 언제나 옳은가? 그렇진 않다. 

데이터 분석의 목적이 이상치가 없는 값들에 집중하느냐, 이상치에 해당하는 값들을 늘리기 위함인가에 따라 다르다.