일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- 자바
- 코딩테스트
- SQL
- html/css
- 자바 실습
- 데이터베이스
- 영어공부
- 중학수학
- 운영체제
- 혼공머신
- 컴퓨터구조
- 중학1-1
- 파이썬라이브러리
- 연습문제
- 데이터분석
- 텍스트마이닝
- C++
- pandas
- 정보처리기사실기
- 머신러닝
- JSP/Servlet
- 데이터입출력구현
- 딥러닝
- 정보처리기사필기
- 컴퓨터비전
- numpy/pandas
- 정수와유리수
- CNN
- CSS
- Today
- Total
목록머신러닝 (93)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
오늘 오후에 계속 놀고 먹고 잠을 자며 시간을 보내서 오늘은 새벽 늦게까지 날을 새고 공부를 해야 할 것 같다. 아무튼 다시 공부를 할 수 있어서 다행이다. 분명 쉬고 편안한 시간을 보냈으나 마음은 결코 편하지 않았다. 차라리 하기 싫은 마음을 이기고 건강한 음식을 선택하고 책상 앞에 다시 앉아 공부할 때가 마음이 편했을 것 같다.언제나 사람은 두 가지 선택 중에서 후회를 한다. 하지만 이것을 해도 저것을 해도 후회를 할 거라면 좋은 선택을 한 후에 후회를 하는 것이 나을 것이다. 이제 다시 선형분류 학습을 시작해볼 것이다. 선형 분류 모델 복습양성 클래스는 자신이 관심을 갖고 지금 예측하려는 모델을 말하고, 음성 클래스는 그 반대편에 있는 것이다. 예를 들어 직원들의 이직 예측을 하는 모델을 구현하..
이번에는 이전의 실습 내용과 같지만 여기서 한걸음 더 나아가 모델의 성능을 높일 수 있도록 요인을 변경해줄 것이다. 1. 어떤 요인이 심장질환과 연관성이 높을까? 실습 2 - 최고의 요인 조합으로, 최고의 정확도에 도전! 문제 풀어보기 이번에는 5개의 요인을 선택한다. 아직 정확도는 63.69%이니 이를 86%까지 높여야 한다. 이제 정확도가 목표에 도달했다. 학습을 마치고2주차 공부를 모두 마쳤다. 이번 단원의 핵심은 데이터 과학자였다. 데이터 과학자가 누구이며 어떤 일을 하는지, 어떤 역량이 필요한지 배울 수 있었다.나머지 2주 분량의 수업이 남아있는데 이 내용은 내일과 모레 진행해보려고 한다. 이로써 아침 공부를 모두 마쳤다. 하기 싫었는데 그래도 수업을 들으며 학습일지를..
2주차에 배운 내용을 토대로 실습을 진행하는 수업이다. 이러한 실습을 진행하는 강사는 다른 분이 하셔서 더 마음에 든다. 우선 목소리부터가 귀에 잘 들어오고 발음도 정확해서 이해하는데 아무런 문제가 없었다. 하지만 이분은 그저 국어책을 읽듯이 원고를 똑같은 목소리로 읽어나가는 것이 마음에 들지 않았다. 진짜 마음에 드는 강사를 찾기가 참 힘든 것 같다. 실력이 아무리 좋아도 강사는 의사소통 능력이 훨씬 더 좋아야 한다. 만약 자신이 이런 게 안 된다면 실력을 갈고 닦아 훈련을 하든지 아니면 강사라는 직업을 그만 두든지 해야 한다고 생각한다.이제 실습을 진행해볼 것이다. 우선 문제가 무엇인지 파악해보자. 1. 심장질환을 앓는 사람은 누구일까? 2. 어떤 요인이 심장질환과 연관성이 높을까? ..
전날 마무리하지 못한 머신러닝 2주차 수업을 오늘 마무리하고자 한다. 오늘 아침에는 수학과 영어 공부를 하느라 머신러닝 공부를 늦게 시작했다. 그리고 오늘은 공부를 시작하기가 두렵고 시동이 걸리는데 많은 시간이 걸리기도 했다.아마 4일 동안 부모님 집에서 시간을 보내다 내 집으로 돌아오니 조금은 적응하는 시간이 필요했던 것 같다. 이제 다시 공부에 집중해본다. 이번주 금요일까지 머신러닝 공부를 마치기로 목표를 세웠는데 과연 달성 가능한지 조금 전에 살펴보았다. 아직 시간이 충분하고 반드시 해낼 수 있으리라는 확신이 섰다. 이제 내일부터는 정보처리기사 실기 시험도 준비해야 하고 공부할 게 정말 많지만 난 이 모든 것들을 잘 이룰 수 있으리라 믿는다.이제 공부를 다시 시작해볼 것이다. 이론 3 - 머신러..
두번째 수업도 학습을 시작해본다. 비전공자로서 데이터 과학자가 되기 위해 어떻게 해야 할지에 대한 의문에 대한 답을 주는 수업 같다. 나도 비전공자이지만 전공자보다 오히려 더 다양한 경험과 기술 등을 습득할 수 있어서 감사하게 생각한다. 그럼에도 난 전공자에 걸맞는 수준까지 공부해야 한다고 생각한다. 앞으로 이 일을 계속 할거라면 학위도 취득하고 이 일에 나의 전부를 걸어보기로 다짐했다. 이론 2 - 비전공자로서의 데이터 과학자 전설 속에만 존재하는 동물을 유니콘이라고 한다. 하버드 비즈니스 리뷰 잡지에 데이터 과학자는 유니콘이다는 말로 소개된 적이 있다. 앞서 말한 세 가지 능력을 모두 갖춘 데이터 과학자는 전설 속에만 등장하는 유니콘처럼 굉장하거나 없다는 의미이다. 따라서 이 모든 것들을 깊게 갖추..
이제 엘리스 2주차 공부를 시작해보려고 한다. 저녁에는 공부할 시간이 많지 않으니 오늘 저녁에는 2주차 수업을 공부해보기로 했다. 요즘에는 개발 공부를 하느라 예술과 일상 블로그에는 포스트를 거의 올리지 않게 되는 것 같다. 책도 읽을 시간이 없는데 당분간은 이런 생활을 계속하게 될 것 같다.저녁식사 전까지 남는 시간에 첫번째 수업을 들으며 학습을 진행해볼 것이다. 이론 1 - 데이터 과학자란 누구인가? 1. 2주차 수업 목표 2. 데이터 과학자는 누구이고, 어떤 역량을 필요로 하는가 데이터 과학자는 2012년 10월 HBR에서 소개되었다. 이 전문을 읽어보는 것도 좋다. 도메인 전문성은 비즈니스에 대한 이해를 바탕으로 비즈니스에서 발생하는 문제의 가설을 설정하고 문제를 검증하는 능력 ..
이어서 직원의 이직을 예측하는 실습을 진행해볼 것이다. 아마도 이 실습은 앞으로 이틀 분량의 수업이 더 있는 것 같다. 차근차근 학습하다 보면 언젠가 이 내용도 쉬워질 때가 있을 것 같다.얼마 남지 않은 수업 집중해서 잘 마무리해보자! 직원 이직 예측 실습 두번째 연렬별 이직률 현황 여기서 컬럼을 하나 더 추가한다. 30대 이하가 이직률이 높음을 알 수 있다. 성별 이직률 현황 부서별 이직률 현황 학습을 마치고이번에는 주피터 노트북에 설명을 많이 썼기에 따로 코드 사이에 글을 많이 쓰지는 않았다. 그냥 내가 보려고 만드는 블로그이니 너무 깔끔하게 정리할 필요도 없고 내가 원하는 방식으로 기록하면 될 것이다.처음에는 이해가 되지 않..
지난 시간에 선형 분류 모델에 대한 개념 학습을 진행했다. 이번에는 배운 내용을 토대로 직원 이직을 예측하는 실습을 해볼 것이다. 선형분류 실습해보기 캐글 IBM 여기 등장하는 데이터로 실습을 할 예정이다. HR은 Human Resource의 약자로 직원들이 이탈할지 등을 보여주는 가상의 데이터이다. 데이터 주요 정보 직원의 이직 여부가 가장 중요하므로 이것을 정답 데이터로 쓸 것이다. 데이터의 타입을 확인하는 이유는 범주형 데이터는 학습하지 못하므로 수치형으로 바꾸어주어야 하기 때문이다. 한번만 실행해야 하며 다시 실행하면 위쪽 코드를 실행 후 해야 한다. 이미 값을 바꾸었기 때문이다. df라는 데이터프레임의 'Age'라는 열을 기준으로 나이를 3개의 범주(카테고리..
어제에 이어 오늘도 엄마와 함께 황토길 걷기를 갔다와서 맛있는 점심도 먹고 이제 오후 공부를 시작해보려고 한다. 공부하는 시간이 정말 기대가 된다. 오늘은 또 무엇을 배울 수 있을지 생각하며.. 오후에도 아침에 하다만 수업을 듣고 마무리를 해볼 것이다. 3시간 정도의 분량이 남아있는데 오늘은 집에 가는 날이라 많이는 공부를 하지 못할 것 같다.그래도 할 수 있는데까지 해보고 저녁에 또 이어서 진행해볼 것이다. 집값 예측 선형회귀 실습 마지막 이 코드가 실행되지 않고 계속 오류가 떠서 거의 1시간 가까이 코드를 분석하며 오류를 찾는 작업을 진행했다. 그리고 드디어 찾았다. 입력 특성에서 인코딩한 값을 쓰지 않고 이전의 값을 사용했기 때문이었다. 여기서는 문자열을 받지 못한다고 한다.어쨌든 해결이 되어 정..
이 프로젝트의 마지막 실습 작업이 될 것 같다. 이제 머신러닝의 학습 전처리와 모델 선택 등의 과정이 이어진다. 새벽 공부 마지막 시간인데 남은 시간도 열심히 해보자! 주택 가격 예측 선형회귀 모델 실습 세번째 특성 선택은 계속해서 반복하며 넣고 빼는 작업은 해봐야 한다. 인코딩을 하는 2가지 방법 데이터는 수치형과 문자형으로 나누어진다. 1. 원핫 인코딩 고유 타입을 컬럼 형태로 표현하는 방식이다. type은 h, u, t 타입으로 구성되어 있고, 이 종류마다 컬럼은 파생시킨다. 해당하는 부분은 1로 올리고 나머지는 0으로 만든다.원핫 인코딩의 장점은 모든 데이터의 크기가 동등한 크기를 가진다. 크기를 잘못 기입하면 학습의 방해 요소가 될 수 있다. 원핫 인코딩은 모든 숫자가 1로 통일..