일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 정보처리기사필기
- 파이썬
- JSP/Servlet
- 자바 실습
- 선형분류모델
- 데이터베이스
- numpy/pandas
- 자바
- Orange
- html/css
- 선형회귀모델
- 자연수의성질
- 언리얼프로젝트
- C++
- 디버깅
- 정보처리기사실기
- 핵심프로젝트
- 데이터입출력구현
- 머신러닝
- 요구사항확인
- 텍스트마이닝
- 중학수학
- 이수증
- 데이터시각화
- 데이터분석
- 코딩테스트
- 딥러닝
- c언어
- pandas
- 언리얼학습
- Today
- Total
클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지
Pandas 21 - 데이터 병합하기 실습해보기 본문
데이터 병합은 여러 개의 데이터셋을 하나로 합치는 과정을 말한다. 여러 개의 데이터셋이 각각 다른 정보를 담고 있을 때 이 데이터들을 합치면 데이터의 크기를 늘리거나 종합적인 정보를 얻을 수 있다.
이제 마지막 실습을 진행해보겠다. 이 실습이 끝나면 미션 문제가 하나 있는데, 지난번에는 도저히 풀지 못했지만 이번에는 기필코 해결하고 싶다.
실습 7 - 데이터 병합하기
서울대공원 입장객 데이터는 2019년 3월 31일까지의 데이터가 담겨 있다. 이 데이터의 뒤에 2019년 4월 한달간의 데이터를 불러와서 합치면 2016년 1월 1일부터 2019년 4월 30일까지의 데이터를 만들 수 있다.
concat()을 활용하면 두 개 이상의 데이터프레임을 행 또는 열 방향으로 단순히 이어붙이는데 활용한다. 지금의 경우 2019년 3월 31일까지의 데이터인 df의 아래방향으로 2019년 4월의 데이터 df2를 이어붙이면 되기 때문에 concat()을 활용한다.
아래 방향으로 붙이기 때문에 axis를 0으로, 두 데이터프레임에 모두 존재하는 컬럼만을 남기기 위해 join을 inner로, 인덱스를 전체 초기화하기 위해 ignore_index를 True로 설정한다.
2016년 1월 1일부터 2019년 3월 31일까지의 서울대공원 입장객 데이터에 2016년 1월 1일부터 2019년 3월 31일까지의 미세먼지 데이터를 합쳐볼 것이다.
merge()를 활용해서 데이터를 합칠 때에는 기준이 될 컬럼이 필요하다. 이번 경우에는 날짜를 기준으로 입장객수와 미세먼지 데이터간의 관계를 확인하기 위해 기준 컬럼인 on을 날짜로 하겠다.
how는 데이터를 합치는 방법을 지정한다. 데이터를 합치는 방법은 데이터 분석의 목적에 따라 달라지므로 각 방법을 선택하는 이유에 대한 이해가 필요하다.
학습을 마치고
오늘 새벽에 5시가 다 되어서까지 공부를 하다가 너무 졸려서 7시까지 2시간 조금 넘게 잠을 자다가 일어나서 새벽 루틴을 실천한 후 다시 공부를 이어갔다. 확실히 머릿속이 맑고 공부가 잘 되었다. 이제 공부할 시간이 30분밖에 남아있지 않지만 미션 문제까지 다 풀고 판다스 공부를 마치려고 한다.
이번 시간에는 조인에 대해서 학습해본 뜻깊은 시간이었다.
'인공지능 > Numpy & Pandas' 카테고리의 다른 글
데이터 시각화 1 - Matplotlib 기본 문법 (0) | 2024.09.11 |
---|---|
Pandas 22 - 판다스 미션 문제 다시 풀어보기 (0) | 2024.09.11 |
Pandas 20 - 데이터 정제하기 실습해보기 (0) | 2024.09.11 |
pandas 19 - 데이터 추출하기 실습해보기 (1) | 2024.09.11 |
Pandas 18 - 데이터 요약하기 실습해보기 (0) | 2024.09.10 |