일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 자바 실습
- 데이터시각화
- 언리얼학습
- 이수증
- 자연수의성질
- 요구사항확인
- c언어
- 텍스트마이닝
- 머신러닝
- pandas
- 선형분류모델
- 선형회귀모델
- 파이썬
- Orange
- 코딩테스트
- 정보처리기사필기
- JSP/Servlet
- 디버깅
- 언리얼프로젝트
- 데이터분석
- 핵심프로젝트
- 데이터입출력구현
- 중학수학
- 정보처리기사실기
- html/css
- 데이터베이스
- C++
- 딥러닝
- numpy/pandas
- 자바
- Today
- Total
목록데이터전처리 (4)
클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지
데이터 전처리의 마지막 과정은 데이터를 처리하는 작업이다. 이 부분에 대한 학습을 이어서 해볼 것이다. 파이썬의 데이터 정의 함수는 리스트, 시리즈, 데이터프레임 등 다양하게 들어갈 수 있다. skill 안에 데이터 프레임을 집어넣고 시리즈 컬럼만 꺼내서 자바가 들어있는지 확인한다. 보통 함수를 적용할 때는 반복문을 사용하는 편이다. apply 함수를 사용하면 이렇게 할 필요가 없다. skill이라는 컬럼에 적용할 것이므로 axis를 1로 해준다. 인덱스 1번이 사라졌음을 알 수 있다. 이미 삭제가 된 다음에는 이렇게 키 에러가 뜨고 있다. 학습을 마치고데이터 전처리에 대한 모든 수업을 듣고 정리해보았다. 잘 이해가 되지 않는 부분도 있었지만 대체로 이런..
지난 시간까지 데이터의 전처리 과정 중에서 병합하는 과정에 대해서 학습해보았다. 이번에는 정렬과 재구조화, 데이터 처리에 대해서 학습해보려고 한다. 한 시간이라는 짧은 시간동안 이 모든 진도를 나갔었는데 분량이 많으면 둘로 나누어서 정리해보려고 한다.이제 마지막 교시만 남아있다. 남은 시간 열심히 공부해보자! 컬럼을 기준으로 정렬하려면 축을 바꾸어주면 된다. 정렬된 것은 원래 상태로 돌아가있다. 이 원본 데이터를 바꾸어주는 속성이 inplace이다. inplace = True로 하면 출력문이 나오지 않는다. 7번 그룹이 1등이라는 것을 알 수 있다. 여기에 새로운 컬럼을 하나 만들어 몇 위인지 출력해준다. 오른쪽 끝에 rank가 출력되고 있다. 여기서 월급..
병합을 시각화하는 방법에 대해서 학습해볼 것이다. 이러한 병합 방법을 outter-join이라고 한다. inner는 교집합처럼 공통된 부분만 병합하는 것이고, outter는 합집합처럼 합한 모든 부분을 병합하는 것이다. 키에러가 발생한다. 그 이유는 대괄호를 하나만 묶었기 때문이다. 3개의 데이터를 병합하니 2차원으로 만들어야 한다. right로 하면 몇 개의 정보가 사라진다. hr_info를 기준으로 하면 직원 전체의 데이터에는 퇴사 직원이 포함되기에 정보가 좀더 많아진다. 이것은 안되는데 null값은 산술과 비교 연산이 불가능하다. 이렇게 써야 한다. 학습을 마치고병합과 조인에 대해 그동안 잘 몰랐었는데 이번 수업을 들으면서 어느 정..
데이터 분석은 통계학과 관련이 높다고 한다. 데이터 전처리 과정은 이전에 강의하셨던 선생님이 바톤을 이어서 수업해주셨다. 기초통계만 다른 선생님이 하셨다. 그래도 두 명의 선생님에게서 배우니 더 다양하게 접해볼 수 있어서 좋았다.이제 데이터 전처리에 대해서 학습을 진행해볼 것이다. 반복문을 통해 급여를 월별이 아닌 한번에 불러와서 리스트에 담아준다. 주석처리한 부분을 해제하면 이렇게 4, 5, 6월의 급여 정보를 불러올 수 있다. 행 단위 병합이 되었다. 학습을 마치고오늘 정말 많은 공부를 하는 것 같다. 앞으로 1시간 안에 나머지 데이터 전처리 수업을 모두 듣고 학습일지 작성까지 마치려고 한다. 그리고 마지막 교시에는 엘리스로 판다스 공부를 이어서 진행하면..