일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터입출력구현
- 컴퓨터구조
- 컴퓨터비전
- html/css
- 중학1-1
- C++
- numpy/pandas
- 파이썬
- 정보처리기사필기
- 머신러닝
- CNN
- 중학수학
- JSP/Servlet
- 정보처리기사실기
- 혼공머신
- 정수와유리수
- 연습문제
- 운영체제
- 코딩테스트
- 텍스트마이닝
- 데이터분석
- 파이썬라이브러리
- 딥러닝
- 영어공부
- 자바
- pandas
- 데이터베이스
- SQL
- 자바 실습
- CSS
- Today
- Total
목록2024/09/17 (9)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
두번째 수업도 학습을 시작해본다. 비전공자로서 데이터 과학자가 되기 위해 어떻게 해야 할지에 대한 의문에 대한 답을 주는 수업 같다. 나도 비전공자이지만 전공자보다 오히려 더 다양한 경험과 기술 등을 습득할 수 있어서 감사하게 생각한다. 그럼에도 난 전공자에 걸맞는 수준까지 공부해야 한다고 생각한다. 앞으로 이 일을 계속 할거라면 학위도 취득하고 이 일에 나의 전부를 걸어보기로 다짐했다. 이론 2 - 비전공자로서의 데이터 과학자 전설 속에만 존재하는 동물을 유니콘이라고 한다. 하버드 비즈니스 리뷰 잡지에 데이터 과학자는 유니콘이다는 말로 소개된 적이 있다. 앞서 말한 세 가지 능력을 모두 갖춘 데이터 과학자는 전설 속에만 등장하는 유니콘처럼 굉장하거나 없다는 의미이다. 따라서 이 모든 것들을 깊게 갖추..
이제 엘리스 2주차 공부를 시작해보려고 한다. 저녁에는 공부할 시간이 많지 않으니 오늘 저녁에는 2주차 수업을 공부해보기로 했다. 요즘에는 개발 공부를 하느라 예술과 일상 블로그에는 포스트를 거의 올리지 않게 되는 것 같다. 책도 읽을 시간이 없는데 당분간은 이런 생활을 계속하게 될 것 같다.저녁식사 전까지 남는 시간에 첫번째 수업을 들으며 학습을 진행해볼 것이다. 이론 1 - 데이터 과학자란 누구인가? 1. 2주차 수업 목표 2. 데이터 과학자는 누구이고, 어떤 역량을 필요로 하는가 데이터 과학자는 2012년 10월 HBR에서 소개되었다. 이 전문을 읽어보는 것도 좋다. 도메인 전문성은 비즈니스에 대한 이해를 바탕으로 비즈니스에서 발생하는 문제의 가설을 설정하고 문제를 검증하는 능력 ..
이어서 직원의 이직을 예측하는 실습을 진행해볼 것이다. 아마도 이 실습은 앞으로 이틀 분량의 수업이 더 있는 것 같다. 차근차근 학습하다 보면 언젠가 이 내용도 쉬워질 때가 있을 것 같다.얼마 남지 않은 수업 집중해서 잘 마무리해보자! 직원 이직 예측 실습 두번째 연렬별 이직률 현황 여기서 컬럼을 하나 더 추가한다. 30대 이하가 이직률이 높음을 알 수 있다. 성별 이직률 현황 부서별 이직률 현황 학습을 마치고이번에는 주피터 노트북에 설명을 많이 썼기에 따로 코드 사이에 글을 많이 쓰지는 않았다. 그냥 내가 보려고 만드는 블로그이니 너무 깔끔하게 정리할 필요도 없고 내가 원하는 방식으로 기록하면 될 것이다.처음에는 이해가 되지 않..
지난 시간에 선형 분류 모델에 대한 개념 학습을 진행했다. 이번에는 배운 내용을 토대로 직원 이직을 예측하는 실습을 해볼 것이다. 선형분류 실습해보기 캐글 IBM 여기 등장하는 데이터로 실습을 할 예정이다. HR은 Human Resource의 약자로 직원들이 이탈할지 등을 보여주는 가상의 데이터이다. 데이터 주요 정보 직원의 이직 여부가 가장 중요하므로 이것을 정답 데이터로 쓸 것이다. 데이터의 타입을 확인하는 이유는 범주형 데이터는 학습하지 못하므로 수치형으로 바꾸어주어야 하기 때문이다. 한번만 실행해야 하며 다시 실행하면 위쪽 코드를 실행 후 해야 한다. 이미 값을 바꾸었기 때문이다. df라는 데이터프레임의 'Age'라는 열을 기준으로 나이를 3개의 범주(카테고리..
어제에 이어 오늘도 엄마와 함께 황토길 걷기를 갔다와서 맛있는 점심도 먹고 이제 오후 공부를 시작해보려고 한다. 공부하는 시간이 정말 기대가 된다. 오늘은 또 무엇을 배울 수 있을지 생각하며.. 오후에도 아침에 하다만 수업을 듣고 마무리를 해볼 것이다. 3시간 정도의 분량이 남아있는데 오늘은 집에 가는 날이라 많이는 공부를 하지 못할 것 같다.그래도 할 수 있는데까지 해보고 저녁에 또 이어서 진행해볼 것이다. 집값 예측 선형회귀 실습 마지막 이 코드가 실행되지 않고 계속 오류가 떠서 거의 1시간 가까이 코드를 분석하며 오류를 찾는 작업을 진행했다. 그리고 드디어 찾았다. 입력 특성에서 인코딩한 값을 쓰지 않고 이전의 값을 사용했기 때문이었다. 여기서는 문자열을 받지 못한다고 한다.어쨌든 해결이 되어 정..
지난 번에 이 수업을 완수했다. 날짜를 보니 그리 오래 되지 않았고 9월 12일 정도에 완강한 것 같다. 세 달 전에 처음 이 수업을 듣고 시각화 단원은 공부하지 않았었다. 처음 들었을 때는 거의 이해하지 못한 상태에서 수업을 들었기에 이번에 넘파이와 판다스, 시각화 공부를 하면서 이 수업도 함께 다시 수강해보았다.실습 문제도 주피터 노트북에 풀어보고 정말 유익한 시간이었다. 이제 학습한 내용들을 기록으로 남겨본다. 이수 및 학습 현황 학습 상세 현황 이수증 이 수업을 듣고 나서 난 데이터 분석도 흥미가 생겼고 공부도 더 열심히 하게 된 것 같다. 정말 모든 것이 감사할 뿐이다. 배울 때는 많이 어렵고 힘들었는데 하고 나니 자신감도 생기고 인공지능에 대해서도 충분히 잘할 수 있겠..
이 프로젝트의 마지막 실습 작업이 될 것 같다. 이제 머신러닝의 학습 전처리와 모델 선택 등의 과정이 이어진다. 새벽 공부 마지막 시간인데 남은 시간도 열심히 해보자! 주택 가격 예측 선형회귀 모델 실습 세번째 특성 선택은 계속해서 반복하며 넣고 빼는 작업은 해봐야 한다. 인코딩을 하는 2가지 방법 데이터는 수치형과 문자형으로 나누어진다. 1. 원핫 인코딩 고유 타입을 컬럼 형태로 표현하는 방식이다. type은 h, u, t 타입으로 구성되어 있고, 이 종류마다 컬럼은 파생시킨다. 해당하는 부분은 1로 올리고 나머지는 0으로 만든다.원핫 인코딩의 장점은 모든 데이터의 크기가 동등한 크기를 가진다. 크기를 잘못 기입하면 학습의 방해 요소가 될 수 있다. 원핫 인코딩은 모든 숫자가 1로 통일..
결측치를 채우는 것부터 나머지 머신러닝 프로세스 단계를 학습해보기로 하자. 새벽에 공부하니 저녁에 할 때보다 집중이 훨씬 잘 되고 머리도 맑은 것 같다. 결측치 처리하기 데이터가 많다면 결측치를 제거해도 괜찮지만 데이터가 적으면 결측치를 다른 값으로 채워 결측치를 살려주는 것이 좋다. False면 0을, True면 1을 반환하여 그 컬럼의 세로 총합을 구해본다. 채운 다음에는 원래 값에 넣어준다. 관할구역이 결측치라도 지역 이름은 들어있을 것이다. 이 지역 이름이 어느 관할 구역에 속하는지 파악하고 채워주는 작업을 진행한다. pivot 테이블은 데이터를 재구조화하는 것이다.만약 values에 Price를 넣고, aggfunc에 mean을 넣으면 지역에 따른 가격 평균..
오늘은 저녁에 별로 공부를 하고 싶은 마음이 들지 않았지만 그래도 잠시 운동을 한 후 책상 앞에 앉아 공부를 시작해본다. 저녁에 둘째날 수업을 모두 학습하기는 어렵고 조금이라도 해볼 생각이다. 이어서 선형 회귀 모델에 대해서 학습해보자. 선형회귀 모델 실습해보기지난 시간까지 선형회귀 모델에 대한 개념과 사용방법에 대해 다루어보았다. 이번 시간에는 데이터를 가져와서 주택 가격을 예측하는 실습을 진행해볼 것이다. 6번은 생략하고 하나씩 실습해보기로 하자. 3. 데이터 전처리 및 탐색 방의 수, 가격, 거리, 위도, 경도 등 많은 정보가 들어있는 주택 데이터셋이다. 데이터셋을 요약해서 알려주는 정보를 출력해보자. 데이터 정보 확인21개의 컬럼 중에서 입력 특성으로 사용할만한 것이 무엇이 있는지, ..