일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬라이브러리
- 정보처리기사실기
- 혼공머신
- 컴퓨터구조
- 정보처리기사필기
- 영어공부
- 자바 실습
- 텍스트마이닝
- 코딩테스트
- 컴퓨터비전
- CSS
- 중학수학
- 운영체제
- 정수와유리수
- 연습문제
- numpy/pandas
- 파이썬
- SQL
- html/css
- 머신러닝
- C++
- 데이터베이스
- 데이터분석
- JSP/Servlet
- 딥러닝
- 데이터입출력구현
- 자바
- pandas
- CNN
- 중학1-1
- Today
- Total
목록인공지능/Numpy & Pandas (54)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
운동을 갔다와서 샤워하고 나서 저녁을 먹기 전에 잠시 시간이 있어 공부하고 싶은 생각이 제일 먼저 들었다. 이젠 그 어더일보다 개발 공부하는 일이 가장 즐거워졌다.판다스 두번째 실습을 진행해본다. 실습 2 - 데이터 변환하기 1 데이터 타입은 아직 바뀌지 않았다. 타입이 하나도 바뀌지 않았다. 데이터프레임에 뭔가 변형을 가하거나 작업하는메서드들은 데이터프레임 자체를 변환하지 않고 변환된 새로운 데이터프레임을 반환한다. df의 "어른" 컬럼을 정수형으로 변환하기는 하지만, 그냥 정수형으로 바뀐 "어른" 컬럼을 시리즈 형태로 나타낼 뿐 df의 "어른" 컬럼 그 자체가 바뀌는 것이 아니다. df의 "어른" 컬럼을 바꾸고 싶다면 astype()을 활용해 변환하여 생성한 "어른" ..
세 달 전에 엘리스 자체 프로그램으로 실습해보았던 내용을 오늘 다시 한번 처음부터 다시 실습해보기로 했다. 내용 정리는 지난 번에 정리한 것을 읽어보는 것으로 충분한 것 같아 이해가 되지 않는 부분만 영상을 다시 시청해볼 것이다. 대신 실습은 중요하고 혼자서는 어려우니 영상을 함께 시청하며 공부하기로 했다.조금 전에 주피터 노트북으로 실행할 수 있는 모든 세팅을 완료했다. 필요한 자료도 모두 받아놓았으니 이제 실습을 해보는 것만 남아있다. 공부가 요즘 참 재미있다. 하기 싫은 순간을 이기면 충분히 즐길 수 있다는 걸 요즘 느꼈다. 실습 1 - 데이터 살펴보기 학습을 마치고첫번째 실습을 완료하였다. 처음 학습할 때 정리했던 학습일지를 살펴보며 그때 내가 어떤 ..
데이터 전처리의 마지막 과정은 데이터를 처리하는 작업이다. 이 부분에 대한 학습을 이어서 해볼 것이다. 파이썬의 데이터 정의 함수는 리스트, 시리즈, 데이터프레임 등 다양하게 들어갈 수 있다. skill 안에 데이터 프레임을 집어넣고 시리즈 컬럼만 꺼내서 자바가 들어있는지 확인한다. 보통 함수를 적용할 때는 반복문을 사용하는 편이다. apply 함수를 사용하면 이렇게 할 필요가 없다. skill이라는 컬럼에 적용할 것이므로 axis를 1로 해준다. 인덱스 1번이 사라졌음을 알 수 있다. 이미 삭제가 된 다음에는 이렇게 키 에러가 뜨고 있다. 학습을 마치고데이터 전처리에 대한 모든 수업을 듣고 정리해보았다. 잘 이해가 되지 않는 부분도 있었지만 대체로 이런..
지난 시간까지 데이터의 전처리 과정 중에서 병합하는 과정에 대해서 학습해보았다. 이번에는 정렬과 재구조화, 데이터 처리에 대해서 학습해보려고 한다. 한 시간이라는 짧은 시간동안 이 모든 진도를 나갔었는데 분량이 많으면 둘로 나누어서 정리해보려고 한다.이제 마지막 교시만 남아있다. 남은 시간 열심히 공부해보자! 컬럼을 기준으로 정렬하려면 축을 바꾸어주면 된다. 정렬된 것은 원래 상태로 돌아가있다. 이 원본 데이터를 바꾸어주는 속성이 inplace이다. inplace = True로 하면 출력문이 나오지 않는다. 7번 그룹이 1등이라는 것을 알 수 있다. 여기에 새로운 컬럼을 하나 만들어 몇 위인지 출력해준다. 오른쪽 끝에 rank가 출력되고 있다. 여기서 월급..
병합을 시각화하는 방법에 대해서 학습해볼 것이다. 이러한 병합 방법을 outter-join이라고 한다. inner는 교집합처럼 공통된 부분만 병합하는 것이고, outter는 합집합처럼 합한 모든 부분을 병합하는 것이다. 키에러가 발생한다. 그 이유는 대괄호를 하나만 묶었기 때문이다. 3개의 데이터를 병합하니 2차원으로 만들어야 한다. right로 하면 몇 개의 정보가 사라진다. hr_info를 기준으로 하면 직원 전체의 데이터에는 퇴사 직원이 포함되기에 정보가 좀더 많아진다. 이것은 안되는데 null값은 산술과 비교 연산이 불가능하다. 이렇게 써야 한다. 학습을 마치고병합과 조인에 대해 그동안 잘 몰랐었는데 이번 수업을 들으면서 어느 정..
데이터 분석은 통계학과 관련이 높다고 한다. 데이터 전처리 과정은 이전에 강의하셨던 선생님이 바톤을 이어서 수업해주셨다. 기초통계만 다른 선생님이 하셨다. 그래도 두 명의 선생님에게서 배우니 더 다양하게 접해볼 수 있어서 좋았다.이제 데이터 전처리에 대해서 학습을 진행해볼 것이다. 반복문을 통해 급여를 월별이 아닌 한번에 불러와서 리스트에 담아준다. 주석처리한 부분을 해제하면 이렇게 4, 5, 6월의 급여 정보를 불러올 수 있다. 행 단위 병합이 되었다. 학습을 마치고오늘 정말 많은 공부를 하는 것 같다. 앞으로 1시간 안에 나머지 데이터 전처리 수업을 모두 듣고 학습일지 작성까지 마치려고 한다. 그리고 마지막 교시에는 엘리스로 판다스 공부를 이어서 진행하면..
이어서 기술 통계 관련 내용을 학습하고 정리해보는 중이다. 여기까지만 학습하고 이제 판다스로 돌아와서 다른 공부를 진행해야지. 얼마 남지 않았으니 좀더 힘을 내보자! 결측치를 채울 때 박사학위를 딴 사람을 5000만원으로 하게 되면 큰 오차가 발생한다. 두 범주가 그룹으로 묶여 고등학교 졸업부터 박사.. 학사까지 각각 출력되고 있다. 그룹별로 서로 다른 값을 보고 싶을 때 사용한다. 파이썬에서 corr을 입력하면 숫자 형태로 출력된다. 수치가 -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계이다. 내림차순으로 정렬할 때는 절대값을 띄워야 한다. 양이 중요한 것이지 숫자의 부호는 중요하지 않기 때문이다. 자료가 너무 많을 때는 상관관계가 ..
이제 오후 공부를 시작해보려고 한다. 조금 전에 보안 특강이 있어서 한 10분 정도 수업을 들었는데 별로 들을만한 내용이 없어서 수업 도중에 나와 자율학습을 하는 중이다. 점심시간에 학습했던 내용에 이어서 기술통계 공부를 하려고 한다. value_counts()는 비율을 구할 때 많이 사용한다. 앞의 1년 쪽의 데이터가 많이 분포되어 있음을 볼 수 있다. 근속연수가 비어있을 때 평균으로 할지 중앙값으로 할지 고민해봐야 한다. True와 False로 출력되고 있다. 여기서 True만 가져오면 된다. 반복문을 쓸 때 하나만 우선 해보고 적용하면 쉽게 할 수 있다. 학습을 마치고분량이 많으니 그룹화에 관한 다른 내용은 다음 포스트에서 이어서 하려고 한다. 이제 기초..
이번에는 기초 통계 수업 내용을 다시 들으며 정리하려고 한다. 오늘은 점심 시간을 이용해 공부를 더 해볼 것이다. 기술 통계는 기술하다의 약자로 어떤 것을 묘사하는 것이다. 기술 통계 이론 개념 학습 문제 데이터를 독립 변수, 정답 데이터를 종속 변수라고 한다. 머신러닝은 통계학, 데이터마이닝 같은 분야에서 응집해서 나온 분야이다. 대표값과 평균값, 중앙값 중앙값은 오름차순으로 정렬한 후 가장 가운데 있는 값, 최빈값은 가장 많이 나온 빈도수의 값이다. 이상치는 제거하고 데이터 분석을 한다. 사분위수 예를 들어 값이 이렇게 된다면 우리는 여기서 이 값들이 뒤쪽으로 많이 몰려있음을 알 수 있다. 중위수는 왼쪽 5개와 오른쪽 5개를 제외한 ..
실습 과제는 강의 영상이 따로 없어서 혼자서 코드를 읽고 학습을 진행하려고 한다. 선생님이 코드를 틀리셔서 이 오류를 잡는데 한참의 시간이 걸렸다. 그래도 이렇게 찾을 수 있다는 게 얼마나 놀라운 발전인지 모른다. result라는 변수에 담아야 하는데 그렇지 않으면 value 오류가 뜬다. 콤마 대신에 |을 써도 잘 출력이 된다. not-null 데이터가 비어있지 않는 것을 말한다. 결측치가 있는 것을 확인해야 하는데, 가슴 둘레와 머리 둘레에 결측치가 있다. 결측치가 현재 데이터보다 많을 때는 어떻게 해야 하는지도 배우게 될 것이다.데이터 정보에서 확인해야 할 것은 두 가지이다. 하나는 결측치가 있는지, 데이터 타입이 숫자 형태인지이다. object는 문자열 형태인데 이 타입..