일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 정수와유리수
- C++
- 데이터베이스
- SQL
- 파이썬라이브러리
- JSP/Servlet
- 파이썬
- 데이터분석
- 영어공부
- 혼공머신
- CNN
- 딥러닝
- 자바 실습
- 정보처리기사필기
- 중학수학
- pandas
- 연습문제
- 중학1-1
- 컴퓨터비전
- 데이터입출력구현
- 텍스트마이닝
- 자바
- 컴퓨터구조
- numpy/pandas
- 코딩테스트
- 머신러닝
- html/css
- CSS
- 운영체제
- 정보처리기사실기
- Today
- Total
목록2024/09/30 (15)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
머신러닝의 마지막 단원 학습이 남아있다. 이것도 세 장으로 나누어져 있으니 공부하는데 한참의 시간이 걸릴 것 같다. 가능하면 오늘 오후 2시 전에는 공부를 다 마칠 생각이다.그럼 군집 알고리즘부터 공부를 시작해 보자. 학습 목표흑백 사진을 분류하기 위해 여러 가지 아이디어를 내면서 비지도 학습과 군집 알고리즘에 대해 이해하기 시작하기 전에한빛 마켓은 낭산물 판매로 확대하며 새 이벤트를 기획하고 있다. 고객이 한빛 마켓에서 사고 싶은 과일 사진을 보내면 그중 가장 많이 요청하는 과일을 판매 품목으로 선정하려 한다. 또 1위로 선정된 과일 사진을 보낸 고객 중 몇 명을 뽑아 이벤트 당첨자로 선정할 것이다. 사진에 대한 정답(타깃)을 알지 못하는데 어떻게 이 사진을 종류대로 모을 수 있을까? 타깃을 ..
이제 트리 앙상블에 대한 실습을 진행해볼 것이다. 무척 어려운 내용이지만 차근차근 실습을 진행해보자. 가능하면 30분 안에 다 마치고 싶다. 트리 앙상블 실습해보기 xgboost를 사용하기 위해서는 라이브러리를 설치해야 한다. 책에는 이 내용이 빠져있었다. 이상하게도 계속 오류가 떠서 찾아보니 이 코드를 추가하는 거였다. LightGBM도 사용하려면 라이브러리를 설치해야 한다. 아마도 코랩에서는 그냥 제공하기 때문에 설치할 필요가 없어 책에는 기록하지 않았던 것 같다. 하지만 난 공부할 때 코랩보다는 주피터 노트북에서 해야 진짜 공부가 된다고 생각한다. 이건 버전도 최신으로 그냥 업데이트 되고 제대로 되고 있는지 확인도 잘 안 되는 것 같다. 단원 마무리하기 ..
이제 5단원의 마지막 장인 트리 앙상블에 대해서 학습해보려고 한다. 이번 단원도 그래프는 하나도 없고 코드만 있지만 그래도 재미있게 학습을 진행하려고 한다.트리 앙상블로 처음 공부해 보는 내용이다. 학습 목표앙상블이 무엇인지 이해하고 다양한 앙상블 학습 알고리즘을 배운다. 시작하기 전에혼공머신은 이제 베스트 머신러닝 알고리즘을 찾아보려고 한다. 그리고 랜덤 포레스트라는 알고리즘에 눈길이 간다.가장 좋은 알고리즘이 있다고 해서 다른 알고리즘을 배울 필요가 없는 것은 아니다. 보편적으로 성능이 좋아 널리 사용되는 알고리즘이 있지만 문제마다 다를 수 있다. 그렇기에 어떤 알고리즘이 더 뛰어나다고 미리 판단해서는 안된다. 정형 데이터와 비정형 데이터지난 학습을 되돌아보자. 4장까지 생선의 길이, 높이, ..
이제 교차 검증과 그리드 서치에 대한 실습을 진행해보려고 한다. 이번 예제는 그래프가 없이 코드만 있어 조금은 단조로울 것 같다. 교차 검증 실습해보기 이 모델은 훈련 세트에 과대적합되어 있다. 그러니 매개변수를 바꿔서 더 좋은 모델을 찾아야 한다. 교차 검증 import 할때 StratifiedGroupKFold와 헤깔려서 잘못 쓰기도 했다. 이러면 제대로 작동이 되지 않으니 꼭 주의하자. 단원 마무리하기 확인 문제 풀기 결정 트리의 노드를 랜덤하게 분할하기 때문에 100번의 반복에서 최적의 매개변수 조합을 찾지 못한다. 평균 검증 점수와 테스트 세트의 점수가 조금 낮다. 학습을 마치고기본 내용 정리 1시간, 실습과 확인문제를 푸는데 1시간 정도..
오늘 새벽에 4시간 동안 두 단원의 학습을 모두 마칠 수 있을까? 최선을 다해 어제 저녁에 하지 못했던 공부를 만회하기로 했다. 오늘은 새벽에 운동을 하지 못할 것 같다. 학습 목표검증 세트가 필요한 이유를 이해하고 교차 검증에 대해 배운다. 그리드 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼라라미터를 찾는다. 시작하기 전에지금까지 우리는 훈련 세트에서 모델을 훈련하고 테스트 세트에서 모델을 평가했다. 그런데 테스트 세트를 사용해 자꾸 성능을 검증하다 보면 점점 테스트 세트에 맞춰지게 된다. 이전까지는 문제를 간단히 하려고 테스트 세트를 사용했다. 하지만 테스트 세트로 일반화 성능을 올바르게 예측하려면 가능한 한 테스트 세트를 사용하지 말아야 한다. 모델을 만들고 나서 마지막에 딱 한 번만 ..