클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

기초통계 분석 3 - 그룹화 확인 및 상관계수 분석에 대하여 본문

인공지능/Numpy & Pandas

기초통계 분석 3 - 그룹화 확인 및 상관계수 분석에 대하여

huenuri 2024. 9. 10. 15:41

이어서 기술 통계 관련 내용을 학습하고 정리해보는 중이다. 여기까지만 학습하고 이제 판다스로 돌아와서 다른 공부를 진행해야지. 얼마 남지 않았으니 좀더 힘을 내보자!


 

 

 

 

 

 

 

 

결측치를 채울 때 박사학위를 딴 사람을 5000만원으로 하게 되면 큰 오차가 발생한다.


 

 

 

 

 


 

 

 

 

두 범주가 그룹으로 묶여 고등학교 졸업부터 박사.. 학사까지 각각 출력되고 있다.


 

 

 

 


 

 

 

 

그룹별로 서로 다른 값을 보고 싶을 때 사용한다.


 

 

 

 

파이썬에서 corr을 입력하면 숫자 형태로 출력된다. 수치가 -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계이다.


 

 

 


 

 

 

내림차순으로 정렬할 때는 절대값을 띄워야 한다. 양이 중요한 것이지 숫자의 부호는 중요하지 않기 때문이다. 자료가 너무 많을 때는 상관관계가 높은 데이터만을 사용하여 분석할 수 있다.

 

 


 

 

학습을 마치고

통계학 수업은 한 달 전에 8시간 정도 수업했던 것 같다. 한 달 전에는 거의 이해하지 못했지만 지금은 그래도 70% 이상은 이해하는 것 같다. 데이터 분석가가 될 것도 아니니 너무 완벽하게 공부하는데 초점을 맞추지 않으려고 한다.

이제 파이썬 사이언스 수업이 하나 더 남아있어 오늘 그 부분까지는 공부를 해야 할 것 같다. 6시 안에 공부를 다 하려면 서둘러야겠다.