일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터분석
- 자바
- CNN
- 혼공머신
- 중학1-1
- 파이썬라이브러리
- 컴퓨터구조
- 운영체제
- numpy/pandas
- 데이터베이스
- 정보처리기사필기
- 파이썬
- 딥러닝
- 정수와유리수
- 정보처리기사실기
- 영어공부
- JSP/Servlet
- SQL
- C++
- 머신러닝
- 연습문제
- CSS
- 중학수학
- 컴퓨터비전
- pandas
- 자바 실습
- html/css
- 데이터입출력구현
- 코딩테스트
- 텍스트마이닝
- Today
- Total
목록2024/09 (303)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이어서 기술 통계 관련 내용을 학습하고 정리해보는 중이다. 여기까지만 학습하고 이제 판다스로 돌아와서 다른 공부를 진행해야지. 얼마 남지 않았으니 좀더 힘을 내보자! 결측치를 채울 때 박사학위를 딴 사람을 5000만원으로 하게 되면 큰 오차가 발생한다. 두 범주가 그룹으로 묶여 고등학교 졸업부터 박사.. 학사까지 각각 출력되고 있다. 그룹별로 서로 다른 값을 보고 싶을 때 사용한다. 파이썬에서 corr을 입력하면 숫자 형태로 출력된다. 수치가 -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계이다. 내림차순으로 정렬할 때는 절대값을 띄워야 한다. 양이 중요한 것이지 숫자의 부호는 중요하지 않기 때문이다. 자료가 너무 많을 때는 상관관계가 ..
이제 오후 공부를 시작해보려고 한다. 조금 전에 보안 특강이 있어서 한 10분 정도 수업을 들었는데 별로 들을만한 내용이 없어서 수업 도중에 나와 자율학습을 하는 중이다. 점심시간에 학습했던 내용에 이어서 기술통계 공부를 하려고 한다. value_counts()는 비율을 구할 때 많이 사용한다. 앞의 1년 쪽의 데이터가 많이 분포되어 있음을 볼 수 있다. 근속연수가 비어있을 때 평균으로 할지 중앙값으로 할지 고민해봐야 한다. True와 False로 출력되고 있다. 여기서 True만 가져오면 된다. 반복문을 쓸 때 하나만 우선 해보고 적용하면 쉽게 할 수 있다. 학습을 마치고분량이 많으니 그룹화에 관한 다른 내용은 다음 포스트에서 이어서 하려고 한다. 이제 기초..
이번에는 기초 통계 수업 내용을 다시 들으며 정리하려고 한다. 오늘은 점심 시간을 이용해 공부를 더 해볼 것이다. 기술 통계는 기술하다의 약자로 어떤 것을 묘사하는 것이다. 기술 통계 이론 개념 학습 문제 데이터를 독립 변수, 정답 데이터를 종속 변수라고 한다. 머신러닝은 통계학, 데이터마이닝 같은 분야에서 응집해서 나온 분야이다. 대표값과 평균값, 중앙값 중앙값은 오름차순으로 정렬한 후 가장 가운데 있는 값, 최빈값은 가장 많이 나온 빈도수의 값이다. 이상치는 제거하고 데이터 분석을 한다. 사분위수 예를 들어 값이 이렇게 된다면 우리는 여기서 이 값들이 뒤쪽으로 많이 몰려있음을 알 수 있다. 중위수는 왼쪽 5개와 오른쪽 5개를 제외한 ..
실습 과제는 강의 영상이 따로 없어서 혼자서 코드를 읽고 학습을 진행하려고 한다. 선생님이 코드를 틀리셔서 이 오류를 잡는데 한참의 시간이 걸렸다. 그래도 이렇게 찾을 수 있다는 게 얼마나 놀라운 발전인지 모른다. result라는 변수에 담아야 하는데 그렇지 않으면 value 오류가 뜬다. 콤마 대신에 |을 써도 잘 출력이 된다. not-null 데이터가 비어있지 않는 것을 말한다. 결측치가 있는 것을 확인해야 하는데, 가슴 둘레와 머리 둘레에 결측치가 있다. 결측치가 현재 데이터보다 많을 때는 어떻게 해야 하는지도 배우게 될 것이다.데이터 정보에서 확인해야 할 것은 두 가지이다. 하나는 결측치가 있는지, 데이터 타입이 숫자 형태인지이다. object는 문자열 형태인데 이 타입..
판다스 기초 수업이 얼마 남지 않았으니 조금 더 힘을 내서 공부를 진행해보자. 특정 데이터를 잘라서 가져올 때 loc, iloc 인덱서를 자주 사용한다. 독립적이지 않고 의존된 것을 파생 변수라고 한다. 나머지 값은 뒤로 밀려난다. 계속해서 value오류가 떠서 왜 그런지 한참 고민했다. 선생님은 21개의 열이라고 했지만 len을 출력해보니 22개였다. 설명을 잘못하신 거였다.이 부분을 이렇게 수정했다. 이제 잘 불러왔고 마지막 5개의 데이터만 가져왔다. 학습을 마치고판다스에 대한 기초는 여기서 마치려고 한다. 나머지는 실습 과제인데 이 부분은 다음 포스트에서 이어서 학습하려고 한다. 내용이 많이 지루해서 수업을 듣기 힘들었..
판다스 수업이 정말 많이 지루해서 그만하고 싶은 마음이 많이 들지만 그래도 다시 마음을 잡고 공부해보기로 했다. 이제 2시간만 있으면 오전 수업도 끝이 난다. 이 두 시간 동안 판다스까지는 공부를 마쳐야겠다. 시리즈 연산은 각각의 인덱스를 찾아가며 하는 연산이다. 공백으로 대체한다. 학습을 마치고이번 수업은 영상이 빠진 부분이 많아서 그냥 혼자서 코드를 읽고 정리한 부분이 많았다. 잘 이해되지 않는 부분도 있었는데 선생님 두 분이서 진행하니 서로 다른 스타일과 내용을 배울 수 있어서 더 좋은 것 같다.다음에는 불리언 인덱싱과 데이터를 추가하는 방법에 대해서 학습해보려고 한다. 아직도 공부하기 싫은 마음과 많이 싸우고 있지만 말이다.
이번에는 일주일 정도 강의를 하시고 훌쩍 떠나신 선생님의 영상을 다시 들으며 내용을 정리해보려고 한다. 넘파이는 어제 정리했고 판다스만 하면 될 것 같다. 어제는 인터넷이 정말 안되서 공부하는데 많이 힘들었지만 오늘은 나름 괜찮은 것 같다. 이어서 공부를 시작해보자. object는 객체 타입이다. 문자열로 받으면 컴퓨터는 어떤 타입으로 지정해야 할지 잘 모르기에 object로 받아들인다. 학습을 마치고중간에 영상이 없어서 그냥 내용만 붙여넣어본다. 지금은 무슨 말인지 이해가 되지 않는 것도 있지만 나중에 더 공부하다보면 알게 될 것 같다.분량이 정말 많아서 언제 다 정리할까 싶다. 확실히 데이터 분석 수업은 지루하다. 그래도 난 지금 공..
이번에는 판다스 최종 실습을 진행해볼 것이다. 어제처럼 9시 반이 넘어서 본격적인 공부를 시작해본다. Pandas 최종 실습 발생건수만을 가져와서 이 전체 합계를 구하는 것을 해볼 것이다. 2019년과 2021 자료를 보면 2021에만 있는 경찰청이 있다. 광주지방경찰청이 2021년에만 있는데 의미가 있을까? 2019년에는 없으니 결측치가 되는데, 결측치와의 연산은 결측치가 되기 때문이다. 결과 화면에서 이런 식으로 총계가 나오면 의미가 없다. 그렇기에 이름을 변경하려고 한다. 학습을 마치고이렇게 판다스 첫번째 수업을 모두 정리해보았다. 이렇게 실습을 직접 진행해보니 나름 이해도 되고 흥미도 생겼다. 선생님은 어제 내가 조금 읽고 학..
데이터 프레임 실습이 계속해서 이어진다. 이번에는 다른 데이터를 가지고 실습을 진행해본다. 이렇게 하면 합계까지 평균에 포함되기에 1~4반 데이터만 가져와야 한다. axis가 0으로 되어 있음 학습을 마치고여기까지 하면 판다스에 대한 기본 학습은 거의 마친 셈이다. 나름 재미있게 학습을 진행했다. 이제 10분 정도 남아있는데 오늘 해야 할 일들을 마무리하며 수업 갈 준비를 해야겠다.나머지 부분은 아침 공부시간에 진행해볼 것이다.
이어서 판다스 실습을 진행하기로 하자. Pandas 데이터 실습하기 인덱싱과 슬라이싱 개념 열 인덱싱으로만 가져올 수 있다. 행 단위로만 가져올 때는 열 인덱서가 필요하다. loc는 location의 약자이다. 기준값을 주지 않으면 오류가 발생한다. 결측치와의 연산은 다른 값으로 채워주어야 한다. shift 탭을 눌러보면 inplace 속성이 False로 되어 있다. 이것을 True로 해준다. 삭제한 후에는 데이터를 확인할 수 없다. 학습을 마치고정말 많은 내용을 배웠다는 걸 수업을 다시 들으며 알게 되었다. 선생님도 나름 잘 가르치는 것 같다. 본 수업을 들을 때보다 온라인 수업이 훨씬 더 ..