일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- pandas
- 자바 실습
- JSP/Servlet
- 컴퓨터비전
- 자바
- 파이썬라이브러리
- 혼공머신
- CNN
- html/css
- CSS
- SQL
- 중학1-1
- 텍스트마이닝
- 영어공부
- 데이터베이스
- numpy/pandas
- 데이터분석
- 파이썬
- 코딩테스트
- 중학수학
- 컴퓨터구조
- 정보처리기사필기
- 정보처리기사실기
- 연습문제
- 딥러닝
- 정수와유리수
- C++
- 머신러닝
- 운영체제
- 데이터입출력구현
- Today
- Total
목록인공지능/Numpy & Pandas (54)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이번에는 인덱싱과 슬라이싱으로 데이터를 가져오는 법에 대해 학습해보려고 한다. 어제 잠을 별로 자지 못했더니 눈이 감기고 무척 피곤하다. 그리고 뭐든 새로운 과목을 시작하면 하루 이틀 정도는 하기 싫은 마음과 싸워야 할 때가 많다.그래도 새로운 한 주가 시작되었으니 열심히 공부해봐야지. 아침에 Numpy 학습을 마치고 싶지만 그건 무리일 것 같고, 오후 4시 전까지는 학습을 다 마치고 판다스로 넘어가고 싶다. 그리고 어렵겠지만 책으로도 학습을 진행하려고 한다. 난 어떤 과목이든 책으로 공부하면 흥미를 많이 느끼는 편이다. 강사님보다 사실 책에서 더 많은 것들을 배울 수 있기도 하다. 인덱싱과 슬라이싱 점수가 80인 사람의 인덱스가 0번과 3번이기 때문에 그 값에 맞는 이름을 가져오는 ..
오늘 아침부터는 Numpy/pandas 학습을 시작하려고 한다. 한 30분 정도는 일정 관리를 하느라 시간을 보냈고 이제 1교시가 절반 이상 지나간 지금부터 본격적으로 공부를 시작해본다.우선 수업 시간의 영상을 다시 시청하며 정리해보려고 한다. 사실 여기서부터는 잘 몰라서 이해하지 못한 부분들이 많았다.데이터 분석을 정말 안 좋아하고 공부하는 것도 꺼려했는데 파이썬을 공부하고 나니 조금은 흥미가 생겼다. Numpy의 개념 numpy와 리스트의 차이점은 무엇일까? 리스트는 요소가 각기 떨어져있어 더하기를 해도 덧셈 연산이 되지 않는다. numpy는 이처럼 요소별 연산이 가능하다. 즉, 인덱스 번호가 같은 값끼리의 연산이 가능하다는 뜻이다. Numpy 사용법앞으로는 numpy..
이 과목의 2주차 수업의 마지막이 얼마 남지 않았다. 데이터 병합하기만 공부하면 끝인 것이다. 한 주차 수업이 얼마나 길던지 끝나지 않을 것처럼 보였다. 그래도 이 수업은 3주차까지만 있어서 다행이었다.그럼 바로 학습을 시작하기로 하자! 이론 8 - 데이터 병합하기 학생이 추가될 수도 과목이 추가될 수도 있는데 행이나 열이 추가되는 것이다. 이 데이터를 합치고 싶다면 어떻게 해야 할까? 인덱스를 초기화하기 위해 ignore_index를 True로 설정한다. concat()과 다른 점은 리스트로 넣지 않고 하나하나 왼쪽과 오른쪽에 인자로 넣어준다. how를 inner로 했을 때 5월과 6월의 데이터만 남고 나머지는 합쳐졌다. outer로 하면 3~6월이 모두 포함되어 있..
여섯번째 단원으로 데이터를 정제하는 방법을 배워보기로 하자. 이 학습까지만 마치고 저녁 운동을 하려고 한다. 어제도 걷기와 줄넘기 운동을 하지 못했는데 오늘은 꼭 해야 할 것 같다.저녁에 Numpy/ Pandas 과목의 80% 이상 수료하고, 파이썬 응용 수업에 들어가는 게 오늘의 목표이다. 그래도 처음보다는 학습 속도가 빨라지고 있으니 기대해볼만 하다. 그럼 데이터 정제 학습을 시작해보겠다. 이론 7 - 데이터 정제하기 데이터를 보면 ascending 값이 생략되어 기본값인 오름차순으로 정렬되어 있다. 반면 ascending이 false면 내림차순으로 정렬된다.이 함수를 활용하면 데이터가 가지는 특징을 쉽게 파악할 수 있다. 기존의 index를 저장한 칼럼이 생기는데, 이때 drop..
이번에는 데이터는 추출하는 방법에 대해서 공부해보려고 한다. 데이터를 분석하는 과정이 이렇게 여러 단계가 있다는 걸 알아가는 중이다. 먼저 데이터 추출은 어떻게 하는 것인지 학습해보기로 하자.바로 이론 학습에 들어가본다. 이론 6 - 데이터 추출하기 특정한 조건에 맞는 데이터를 추출할 때 복잡한 조건을 작성하기 위해 필요하다. 파이썬에서는 and, or, not이라고 썼지만 pandas에서는 기호를 사용한다. 그리고 모든 조건은 소괄호를 사용해 묶어주어야 한다. 코드가 길어져도 어떤 작업을 위한 코드인지만 파악하면 쉽게 이해할 수 있다. 라벨을 활용한 데이터 추출 : loc위치를 뜻하는 location의 약자이다. 인덱스 이름과 컬럼 이름을 좌표로 삼아 해당 데이터를 추출한다...
데이터를 변환하는 두번째 학습을 이제 본격적으로 시작해본다.어떤 일이든 시작과 끝 맺음이 가장 중요하다. 더 하고 싶은 마음이 있더라도 중단하고 다음 일은 진행해야 삶의 균형이 흐트러지지 않는다. 이제 잘 쉬었으니 공부도 다시 시작해야 한다. 이론 4 - 데이터 변환하기 2 지난 수업에서 데이터를 변환했지만 날짜가 숫자로 되어 있어서 알아보기 힘들었다. 이제 요일을 글자로 표시할 수 있게 변환하는 작업을 진행할 단계가 되었다. 단위를 바꾸는 등 데이터 변환은 앞으로도 자주 쓰이는 기능이다. 시리즈 연산은 전체 컬럼에 영향을 주며 계산할 수 있다.이처럼 변경된 것을 보게 된다. 이러한 연산은 데이터의 단위를 바꾸거나 숫자 계산을 통해 새로운 지표를 나타내는데 사용한다. 딕셔너리를 놓게..
조금 전에 pandas로 데이터를 불러오고 저장하며 원하는 데이터를 출력하는 실습을 진행해보았다. 이번에는 데이터를 변환하는 방법에 대해서 학습해보기로 하자.바로 이어서 학습을 진행해본다. 데이터의 목적에 따라 사용하려면 변환 작업이 꼭 필요할 것이다. 이론 3 - 데이터 변환하기 1 데이터 타입 변환이란 데이터의 자료형을 변환하는 것이다. 입장객의 평균을 구할 때 연산이 필요하지만, 텍스트 타입으로 되어 있어 연산 값이 제대로 나오지 않는다. 올바른 계산을 위해 텍스트를 정수형 타입으로 바꾸어주어야 한다. df에 어른 타입의 컬럼을 astype의 int로 변환한다. 그런 다음 어른 컬럼에 저장하면 df의 타입이 int로 변환된 것을 확인할 수 있다. 만약 메서드들이 원본 데이터를 바꿔버..
난 뭐든 한번 해보면 계속 하게 되는데 시작하기 전까지가 가장 어려운 것 같다. 오늘은 가능하면 집중해서 드려볼 생각이다.이제 2주차 수업은 Pandas에 관한 내용이다. 조금 전에 아침을 먹으며 이론 강의 2개를 들어보았다. 데이터를 분석할 때 많이 사용하는 기능이었다. 그럼 바로 학습을 시작해보자! 이론 1 - Pandas 라이브러리 소개 Pandas란 무엇인가?데이터의 구조를 바꾸거나 이어붙이는 등 엑셀의 파이썬 버전이라고 생각할 수 있다. 엑셀이 있는데 왜 굳이 코드를 짜며 pandas를 사용해야 할까? 몇십만개, 몇 백만개가 저장되어 있는 파일을 엑셀로 열면 일부 데이터가 손실되거나 로딩에 많은 시간이 걸린다. pandas 라이브러리를 사용하면 데이터 손실 없이 빠르게 처리할 수 있다. ..
마지막 단원은 집계함수와 마스킹 연산에 관한 내용이다. 통계를 내는 방법을 설명하는 것 같다.사설은 생략하고 바로 본 학습에 들어가본다~ 학습을 마치고 미션 문제도 하나 있는데 그것도 풀어볼 예정이다. 이론 - 집계함수 & 마스킹 연산 대용량 데이터에 진입했을 때 첫 단계는 궁금한 데이터에 대해 요약 통계를 계산해보는 것이다. 가장 기본적인 요약 통계를 확인하는 방법을 numpy에서 제공한다.min은 가장 작은 값이고, max는 가장 큰 값이다. mean은 평균값을 말한다. 표준편차를 구할 수도 있는데 이것은 np.std(x)라고 쓰면 된다. sum은 축을 통해서도 계산할 수 있다. y축 연산은 열이 각각 계산되어 [4, 6, 8, 10]이 된다. x축 연산은 행이 각각 계산되어 [6, 22]가 ..
Numpy에서도 브로드캐스팅을 쓴다는 게 참 재미있는 표현인 것 같다. 브로드캐스팅은 오페라나 공연 등에서 콜을 받았을 때 쓰는 용어인 줄 알았는데 네트워트에서도 잘 사용하는 용어였다. 브로드캐스팅은 송신 호스트가 전송한 데이터가 네트워크에 연결된 모든 호스트에 전송되는 방식을 의미한다는 것이다. 즉 한번에 캐스팅을 하는 것을 브로드캐스팅이라고 하나보다. 이론 5 - 브로드 캐스팅 브로드캐스팅은 shape이 다른 array끼리도 연산이 가능한 것을 말한다. 이 5라는 데이터(단일행렬)는 3x3 행렬이 마치 더해진 것처럼 연산하는 것이다. 이 예제에서 보면 [1 2 3] 행렬이 아래로도 내려가 연산이 되는 것을 볼 수 있다. 잡아늘려서 이렇게 1차원이 2차원으로도 되었다. 1차원 행렬이..