클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

Pandas 21 - 데이터 병합하기 실습해보기 본문

인공지능/Numpy & Pandas

Pandas 21 - 데이터 병합하기 실습해보기

huenuri 2024. 9. 11. 07:37

데이터 병합은 여러 개의 데이터셋을 하나로 합치는 과정을 말한다. 여러 개의 데이터셋이 각각 다른 정보를 담고 있을 때 이 데이터들을 합치면 데이터의 크기를 늘리거나 종합적인 정보를 얻을 수 있다.

이제 마지막 실습을 진행해보겠다. 이 실습이 끝나면 미션 문제가 하나 있는데, 지난번에는 도저히 풀지 못했지만 이번에는 기필코 해결하고 싶다.


 

 

 

실습 7 - 데이터 병합하기


 

 

 

 

서울대공원 입장객 데이터는 2019년 3월 31일까지의 데이터가 담겨 있다. 이 데이터의 뒤에 2019년 4월 한달간의 데이터를 불러와서 합치면 2016년 1월 1일부터 2019년 4월 30일까지의 데이터를 만들 수 있다.

 

 

 

 

concat()을 활용하면 두 개 이상의 데이터프레임을 행 또는 열 방향으로 단순히 이어붙이는데 활용한다. 지금의 경우 2019년 3월 31일까지의 데이터인 df의 아래방향으로 2019년 4월의 데이터 df2를 이어붙이면 되기 때문에 concat()을 활용한다.

아래 방향으로 붙이기 때문에 axis를 0으로, 두 데이터프레임에 모두 존재하는 컬럼만을 남기기 위해 join을 inner로, 인덱스를 전체 초기화하기 위해 ignore_index를 True로 설정한다.

 

 

 


 

 

 

 

2016년 1월 1일부터 2019년 3월 31일까지의 서울대공원 입장객 데이터에 2016년 1월 1일부터 2019년 3월 31일까지의 미세먼지 데이터를 합쳐볼 것이다.

merge()를 활용해서 데이터를 합칠 때에는 기준이 될 컬럼이 필요하다. 이번 경우에는 날짜를 기준으로 입장객수와 미세먼지 데이터간의 관계를 확인하기 위해 기준 컬럼인 on을 날짜로 하겠다.

how는 데이터를 합치는 방법을 지정한다. 데이터를 합치는 방법은 데이터 분석의 목적에 따라 달라지므로 각 방법을 선택하는 이유에 대한 이해가 필요하다.


 

 


 

 

 

 

 


 

 

 

 

 


 

 

 

학습을 마치고

오늘 새벽에 5시가 다 되어서까지 공부를 하다가 너무 졸려서 7시까지 2시간 조금 넘게 잠을 자다가 일어나서 새벽 루틴을 실천한 후 다시 공부를 이어갔다. 확실히 머릿속이 맑고 공부가 잘 되었다. 이제 공부할 시간이 30분밖에 남아있지 않지만 미션 문제까지 다 풀고 판다스 공부를 마치려고 한다.

이번 시간에는 조인에 대해서 학습해본 뜻깊은 시간이었다.