클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

기초통계 분석 1 - 기술통계량 정보 확인 및 기술통계 기초 개념 잡기 본문

인공지능/Numpy & Pandas

기초통계 분석 1 - 기술통계량 정보 확인 및 기술통계 기초 개념 잡기

huenuri 2024. 9. 10. 13:58

이번에는 기초 통계 수업 내용을 다시 들으며 정리하려고 한다. 오늘은 점심 시간을 이용해 공부를 더 해볼 것이다.


 

 

 

 

 

 


 

 

 

기술 통계는 기술하다의 약자로 어떤 것을 묘사하는 것이다.

 

 

 


 

 

 

 

기술 통계 이론 개념 학습

 

문제 데이터를 독립 변수, 정답 데이터를 종속 변수라고 한다. 머신러닝은 통계학, 데이터마이닝 같은 분야에서 응집해서 나온 분야이다.


 

 

 

대표값과 평균값, 중앙값

 

중앙값은 오름차순으로 정렬한 후 가장 가운데 있는 값, 최빈값은 가장 많이 나온 빈도수의 값이다. 이상치는 제거하고 데이터 분석을 한다.

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

사분위수

 

 

 

 

예를 들어 값이 이렇게 된다면 우리는 여기서 이 값들이 뒤쪽으로 많이 몰려있음을 알 수 있다.

 

 

 

중위수는 왼쪽 5개와 오른쪽 5개를 제외한 가운데 있는 15가 된다. 1사분위수는 15까지 포함한 가운데 수를 구하는 것이다. 10과 12의 평균인 11이 된다. 3사분위수는 15에서부터 마지막까지의 수로 22와 23의 평균이므로 27.5이다.

사분위수 범위는 3사분위수에서 1사분위수의 값을 뺀 값이다.

 

 

 

사분위 범위 외의 값은 이상치로 처리하는 편이다.

 

 

 

 

 

최대값이 52이므로 56은 이상치로 판별할 수도 있다.


 

 

 

분산을 구할 때는 음수를 제거하기 위해 제곱을 한다.

 

 

 

 


 

 


 

 

 

 


 

 

 

 

 

 

문자열은 숫자열보다 더 많은 정보를 보여준다.

 

 


 

 

 

학습을 마치고

점심시간을 이용해서 기술 통계 수업을 들으며 공부를 해보았다. 오늘은 아침을 먹어서 점심을 먹지 않아도 될 것 같았다. 오히려 점심에 공부를 하니 시간도 절약하고 정말 좋았다. 배는 조금 고프지만 말이다.

오후에 이 내용을 빠르게 정리한 후에 이제 엘리스로 판다스 공부를 진행해도 될 것 같다. 오늘까지 해서 판다스 공부를 다 마치고 내일은 데이터 시각화에 대해서 학습하려고 한다. 그리고 파이썬 데이터 분석 수업도 함께 들으려고 한다. 

이번주는 지루하고 힘들겠지만 데이터 분석을 공부하는 시간이다.