일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- SQL
- html/css
- CSS
- 정수와유리수
- pandas
- CNN
- 파이썬
- 정보처리기사필기
- 자바 실습
- numpy/pandas
- 코딩테스트
- C++
- 중학수학
- 중학1-1
- 머신러닝
- 파이썬라이브러리
- 컴퓨터비전
- JSP/Servlet
- 텍스트마이닝
- 데이터분석
- 컴퓨터구조
- 영어공부
- 혼공머신
- 연습문제
- 정보처리기사실기
- 자바
- 데이터베이스
- 운영체제
- 데이터입출력구현
- 딥러닝
- Today
- Total
목록2024/07/31 (50)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이 과목의 2주차 수업의 마지막이 얼마 남지 않았다. 데이터 병합하기만 공부하면 끝인 것이다. 한 주차 수업이 얼마나 길던지 끝나지 않을 것처럼 보였다. 그래도 이 수업은 3주차까지만 있어서 다행이었다.그럼 바로 학습을 시작하기로 하자! 이론 8 - 데이터 병합하기 학생이 추가될 수도 과목이 추가될 수도 있는데 행이나 열이 추가되는 것이다. 이 데이터를 합치고 싶다면 어떻게 해야 할까? 인덱스를 초기화하기 위해 ignore_index를 True로 설정한다. concat()과 다른 점은 리스트로 넣지 않고 하나하나 왼쪽과 오른쪽에 인자로 넣어준다. how를 inner로 했을 때 5월과 6월의 데이터만 남고 나머지는 합쳐졌다. outer로 하면 3~6월이 모두 포함되어 있..
여섯번째 단원으로 데이터를 정제하는 방법을 배워보기로 하자. 이 학습까지만 마치고 저녁 운동을 하려고 한다. 어제도 걷기와 줄넘기 운동을 하지 못했는데 오늘은 꼭 해야 할 것 같다.저녁에 Numpy/ Pandas 과목의 80% 이상 수료하고, 파이썬 응용 수업에 들어가는 게 오늘의 목표이다. 그래도 처음보다는 학습 속도가 빨라지고 있으니 기대해볼만 하다. 그럼 데이터 정제 학습을 시작해보겠다. 이론 7 - 데이터 정제하기 데이터를 보면 ascending 값이 생략되어 기본값인 오름차순으로 정렬되어 있다. 반면 ascending이 false면 내림차순으로 정렬된다.이 함수를 활용하면 데이터가 가지는 특징을 쉽게 파악할 수 있다. 기존의 index를 저장한 칼럼이 생기는데, 이때 drop..
이번에는 데이터는 추출하는 방법에 대해서 공부해보려고 한다. 데이터를 분석하는 과정이 이렇게 여러 단계가 있다는 걸 알아가는 중이다. 먼저 데이터 추출은 어떻게 하는 것인지 학습해보기로 하자.바로 이론 학습에 들어가본다. 이론 6 - 데이터 추출하기 특정한 조건에 맞는 데이터를 추출할 때 복잡한 조건을 작성하기 위해 필요하다. 파이썬에서는 and, or, not이라고 썼지만 pandas에서는 기호를 사용한다. 그리고 모든 조건은 소괄호를 사용해 묶어주어야 한다. 코드가 길어져도 어떤 작업을 위한 코드인지만 파악하면 쉽게 이해할 수 있다. 라벨을 활용한 데이터 추출 : loc위치를 뜻하는 location의 약자이다. 인덱스 이름과 컬럼 이름을 좌표로 삼아 해당 데이터를 추출한다...
데이터를 변환하는 두번째 학습을 이제 본격적으로 시작해본다.어떤 일이든 시작과 끝 맺음이 가장 중요하다. 더 하고 싶은 마음이 있더라도 중단하고 다음 일은 진행해야 삶의 균형이 흐트러지지 않는다. 이제 잘 쉬었으니 공부도 다시 시작해야 한다. 이론 4 - 데이터 변환하기 2 지난 수업에서 데이터를 변환했지만 날짜가 숫자로 되어 있어서 알아보기 힘들었다. 이제 요일을 글자로 표시할 수 있게 변환하는 작업을 진행할 단계가 되었다. 단위를 바꾸는 등 데이터 변환은 앞으로도 자주 쓰이는 기능이다. 시리즈 연산은 전체 컬럼에 영향을 주며 계산할 수 있다.이처럼 변경된 것을 보게 된다. 이러한 연산은 데이터의 단위를 바꾸거나 숫자 계산을 통해 새로운 지표를 나타내는데 사용한다. 딕셔너리를 놓게..
조금 전에 pandas로 데이터를 불러오고 저장하며 원하는 데이터를 출력하는 실습을 진행해보았다. 이번에는 데이터를 변환하는 방법에 대해서 학습해보기로 하자.바로 이어서 학습을 진행해본다. 데이터의 목적에 따라 사용하려면 변환 작업이 꼭 필요할 것이다. 이론 3 - 데이터 변환하기 1 데이터 타입 변환이란 데이터의 자료형을 변환하는 것이다. 입장객의 평균을 구할 때 연산이 필요하지만, 텍스트 타입으로 되어 있어 연산 값이 제대로 나오지 않는다. 올바른 계산을 위해 텍스트를 정수형 타입으로 바꾸어주어야 한다. df에 어른 타입의 컬럼을 astype의 int로 변환한다. 그런 다음 어른 컬럼에 저장하면 df의 타입이 int로 변환된 것을 확인할 수 있다. 만약 메서드들이 원본 데이터를 바꿔버..
난 뭐든 한번 해보면 계속 하게 되는데 시작하기 전까지가 가장 어려운 것 같다. 오늘은 가능하면 집중해서 드려볼 생각이다.이제 2주차 수업은 Pandas에 관한 내용이다. 조금 전에 아침을 먹으며 이론 강의 2개를 들어보았다. 데이터를 분석할 때 많이 사용하는 기능이었다. 그럼 바로 학습을 시작해보자! 이론 1 - Pandas 라이브러리 소개 Pandas란 무엇인가?데이터의 구조를 바꾸거나 이어붙이는 등 엑셀의 파이썬 버전이라고 생각할 수 있다. 엑셀이 있는데 왜 굳이 코드를 짜며 pandas를 사용해야 할까? 몇십만개, 몇 백만개가 저장되어 있는 파일을 엑셀로 열면 일부 데이터가 손실되거나 로딩에 많은 시간이 걸린다. pandas 라이브러리를 사용하면 데이터 손실 없이 빠르게 처리할 수 있다. ..
마지막 단원은 집계함수와 마스킹 연산에 관한 내용이다. 통계를 내는 방법을 설명하는 것 같다.사설은 생략하고 바로 본 학습에 들어가본다~ 학습을 마치고 미션 문제도 하나 있는데 그것도 풀어볼 예정이다. 이론 - 집계함수 & 마스킹 연산 대용량 데이터에 진입했을 때 첫 단계는 궁금한 데이터에 대해 요약 통계를 계산해보는 것이다. 가장 기본적인 요약 통계를 확인하는 방법을 numpy에서 제공한다.min은 가장 작은 값이고, max는 가장 큰 값이다. mean은 평균값을 말한다. 표준편차를 구할 수도 있는데 이것은 np.std(x)라고 쓰면 된다. sum은 축을 통해서도 계산할 수 있다. y축 연산은 열이 각각 계산되어 [4, 6, 8, 10]이 된다. x축 연산은 행이 각각 계산되어 [6, 22]가 ..
Numpy에서도 브로드캐스팅을 쓴다는 게 참 재미있는 표현인 것 같다. 브로드캐스팅은 오페라나 공연 등에서 콜을 받았을 때 쓰는 용어인 줄 알았는데 네트워트에서도 잘 사용하는 용어였다. 브로드캐스팅은 송신 호스트가 전송한 데이터가 네트워크에 연결된 모든 호스트에 전송되는 방식을 의미한다는 것이다. 즉 한번에 캐스팅을 하는 것을 브로드캐스팅이라고 하나보다. 이론 5 - 브로드 캐스팅 브로드캐스팅은 shape이 다른 array끼리도 연산이 가능한 것을 말한다. 이 5라는 데이터(단일행렬)는 3x3 행렬이 마치 더해진 것처럼 연산하는 것이다. 이 예제에서 보면 [1 2 3] 행렬이 아래로도 내려가 연산이 되는 것을 볼 수 있다. 잡아늘려서 이렇게 1차원이 2차원으로도 되었다. 1차원 행렬이..
이번에 학습할 단원은 Numpy 연산이다. 이것도 배열이니 연산을 할 수 있나보다. Numpy가 처음에는 무척 어렵게 느껴졌는데 해보니 별거 아니었다. 배열은 조금 알고 있으면 충분히 이해할 수 있는 부분이었다.그럼 바로 다음 학습을 진행해보자! 이론 4 - Numpy 연산 파이썬에서 몇 가지 연산은 느리게 진행된다. 이 예시에서 보면 value 값을 받아서 빈 데이터를 받은 array의 길이만큼 만든다. 반복문을 돌면서 기존에 가진 데이터에 5를 추가해서 쓰고 그것을 돌려주는 함수이다.values는 1~10까지인 size가 5인 ranint라고 하면, 여기에 5개를 붙여서 이 함수를 출력한다. 1~100까지 있는 1천만개의 데이터를 수행한다면, 큰 array에 대해서는 수행 시간이 느리다는 것을..
어제 잠이 오지 않아 일어나서 한 단원 학습을 하고 2시 반쯤 잠을 청했다. 일요일이니 자고 싶은만큼 실컷 자자 하고 알람을 껐다. 신기하게도 5시 40분이 조금 넘어서 일어났다. 근데 내가 무슨 꿈을 꾸었는지 언뜻 생각이 났는데, 그게 바로 자기 전에 공부했던 배열이었다. 프로그래밍으로 무슨 추척을 하면서 도둑을 잡고 누군가에게 쫓기기도 하고 아무튼 이상했지만 재미있는 꿈이었다. 일어나자마자 잊어버릴까 싶어서 기록해보기로 했다. 언젠가 책에서 읽은 기억이 나는데, 자신이 어떤 것에 몰입하고 있는지 알아보는 여부는 거기에 관한 꿈을 꾸는가라고 했다. 그러면 한 50% 이상 몰입한 상태라는 것이다. 아마도 난 지금 프로그래밍에 완전 몰입하고 있는 것 같다. 하루종일 이 생각만 하고 있는 게 분명하다.그래서..