클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

Pandas 4 - 데이터 추출하기 본문

인공지능/Numpy & Pandas

Pandas 4 - 데이터 추출하기

huenuri 2024. 7. 31. 15:11

이번에는 데이터는 추출하는 방법에 대해서 공부해보려고 한다. 데이터를 분석하는 과정이 이렇게 여러 단계가 있다는 걸 알아가는 중이다. 먼저 데이터 추출은 어떻게 하는 것인지 학습해보기로 하자.

바로 이론 학습에 들어가본다.



 

이론 6 - 데이터 추출하기

 


 

 

특정한 조건에 맞는 데이터를 추출할 때 복잡한 조건을 작성하기 위해 필요하다. 파이썬에서는 and, or, not이라고 썼지만 pandas에서는 기호를 사용한다. 그리고 모든 조건은 소괄호를 사용해 묶어주어야 한다.


 

 

 

 



 

 

 

 

 

코드가 길어져도 어떤 작업을 위한 코드인지만 파악하면 쉽게 이해할 수 있다.

 
 
 
 
 
 

라벨을 활용한 데이터 추출 : loc

위치를 뜻하는 location의 약자이다. 인덱스 이름과 컬럼 이름을 좌표로 삼아 해당 데이터를 추출한다.

 

이렇게 쓰면 해당 행과 열의 데이터 값을 추출한다. 복수의 데이터를 추출할 수 있고, 슬라이싱을 하는 방법도 있다.


 

 

 

 

 

 


 

 

 

 

 

 

앞서 언급한 추출은 행과 열의 위치 이름이라면, 이 데이터는 순서를 이용해 데이터를 추출하는 방법이다.

 

 

 

 


iloc이 더 복잡해보이지만, 이것은 특정 순서나 위치에 따라 데이터를 선택해야 할 때 유용하다. 두 메서드를 용도에 맞게 사용하는 것이 중요하다.


 

 

 

 

 



 

실습 5 - 데이터 추출하기

 

문제 설명

 

 

 

 

 


 

직접 실습해보기

 

1. 데이터 불러오기

 
 
 
 
 
 

2. 조건에 따른 인덱싱

 
 
 
 
 
 

3. pandas 논리연산자 활용하기


 

 

 

4. 어린이날 데이터 추출해 저장하기

조건을 썼는데 오류가 나왔다. syntax 오류인데, 대괄호와 소괄호를 쓰는 게 많이 헤깔린다.

이번에는 잘 나왔다. 소괄호를 빼먹은 거였다.

 
 
 
 
 

5. 라벨을 활용한 데이터 추출 : loc

 
 
 
 

6. loc과 Boolean indexing을 활용한 데이터 추출

 
 
 
 

7. 순서를 활용한 데이터 추출 : iloc

 
 
 
 

8. 특정 데이터를 변수 dust에 저장하기

1) loc 활용

 

뭔가 오류가 떴는데 mm을 불러오지 않아서 그런 것 같다.

 
 
 
 

2) iloc 활용

iloc은 숫자를 사용하기에 인덱스를 1개 늘려서 쓴다는 점에 주의하자!

 
 
 
 
 
 
 
 

9. 채점하기

 

 

 

 



 

다섯번째 단원 학습을 마치고

데이터를 추출하는 내용을 학습하였다. 배우는 내용이 정말 많아서 기억하기 보다 이런 것이 있구나 하면서 정리하고 넘어가는 중이다. 다음에 몇 번 더 복습을 해야 기억할 수 있을 것 같다.

이제 얼마 남지 않았다. 조금만 더 힘을 내서 pandas 학습을 진행해보자!