일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 코딩테스트
- 혼공머신
- 자바
- 데이터베이스
- 파이썬
- C++
- 정보처리기사필기
- 정보처리기사실기
- CNN
- pandas
- 운영체제
- 연습문제
- numpy/pandas
- 컴퓨터구조
- JSP/Servlet
- 텍스트마이닝
- 컴퓨터비전
- SQL
- 데이터분석
- CSS
- 중학수학
- 딥러닝
- 자바 실습
- 영어공부
- 머신러닝
- 파이썬라이브러리
- 데이터입출력구현
- 정수와유리수
- html/css
- 중학1-1
- Today
- Total
목록인공지능/머신러닝 (113)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이제 특성 공학에 대해서 공부했던 내용을 스스로 실습하며 공부해보는 시간이다. 그래프도 직접 만들어보는 이 시간이 정말 즐겁다. 다중 회귀 실습해보기 이제 특성을 줄여야 한다. 그래프에서 계속 오류가 떠서 한참의 시간이 걸렸다. 그리고 새로운 사실을 알게 되었다. alpha_list와 train_score의 길이가 같아야 한다는 것을.. 그리고 리스트의 for문을 한번 실행시킬 때마다 길이가 6씩 늘어가고 있었다. 코드를 다시 실행시키니 이제 이 문제가 사라졌다. 경고 메시지가 뜨지만 특별히 문제될 것은 없다고 한다. 사이킷런의 라쏘 모델은 최적의 개수를 찾기 위해 반복적인 계산을 수행하는데, 지정한 반복 횟수가 부족할 때 이런 경고가 발생한다. 이 반복..
이제 3장의 마지막 단원 학습이다. 오늘 낮잠을 많이 잤더니 별로 피곤하지 않아 새벽까지 4장의 학습을 마치고 정처기 실기도 어느 정도 공부할 수 있었으면 좋겠다.가능할지 모르겠지만 조금씩 다시 회복해 볼 것이다. 지난 시간 복습 음수가 나오는 문제를 해결하기 위해 원래 특성에 제곱한 특성을 추가해주었다. 학습 목표여러 특성을 사용한 다중 회귀에 대해 배우고, 사이킷런의 여러 도구를 사용해 본다.복잡한 모델의 과대적합을 막기 위한 릿지와 라쏘 회기를 배운다. 시작하기 전에혼공머신은 다중 회귀로 농어의 무게를 어느 정도 예측할 수 있지만, 여전히 훈련 세트보다 테스트 세트의 점수가 높은 것이 왠지 찜찜하다. 이 문제를 해결하려면 어떻게 해야 할까? 다중 회귀여러 개의 특성을 사용한 선형 회귀를 다중..
이제 선형 회귀 실습을 해볼 차례이다. 공부할 때는 너무 어려워서 포기하고 싶다가도 실습하는 시간이 되면 의욕이 샘솟는다. 이래서 난 공부하는걸 멈출 수 없나 보다. 선형 모델 실습해보기 이웃 샘플의 타깃 평균을 구해보자. 단원 마무리하기 학습을 마치고다중 회귀 모델은 수업 시간에도 다루지 않았던 내용이라 조금 어려웠다. 다음에 배우게 될 내용도 처음 들어보는 개념들이나 조금 어려울테지만 그래도 끝까지 열심히 공부해볼 것이다.수업을 듣는 것과 혼자서 공부하는 건 정말 많이 달랐다. 코드를 모두 이해하고 넘어가야 하고 어느 정도 이해를 전제로 한다. 하지만 느리게 공부하는 동안 머신러닝에 대한 관심이 더 깊어지는 걸 느낄 수 있었다.
3장은 세 번째 장까지 있어서 공부를 다 마치려면 한참의 시간이 걸릴 것 같다. 그래도 공부를 해야겠지. 어제와 오늘은 공부할 컨디션이 좋지는 않아서 좀 천천히 하는 중이다. 지난 시간 복습 결정 계수가 1에 가까우면 좋은 모델이고, 0에 가까우면 좋지 않은 모델로 예측한다. 모델의 복잡도가 낮으면 과소적합이고, 높으면 과대적합이다. 이 모델 복잡도를 조절하는 매개변수는 이웃의 개수이다. 학습 목표k-최근접 이웃 회귀와 선형 회귀 알고리즘의 차이를 이해하고, 사이킷런을 사용해 여러 가지 선형 회귀 모델을 만들어보기 시작하기 전에농어 담당 직원은 혼공머신에게 아주 큰 농어를 골라 무게를 예측해 달라고 가져왔다. 무려 길이가 50cm인 농어이다. 혼공머신은 앞서 만든 모델을 사용해 이 농어의 무게를..
아침에 공부했던 내용을 실습하며 나머지 공부를 이어가려고 한다. k-최근접 이웃 회귀 실습해보기 하지만 배열의 크기를 바꿀 수 없는 크기로 변환하려고 하면 오류가 뜬다. 리스트는 4개이기에 2 x 3 배열은 만들 수 없기 때문이다. 결정계수(R²) 과대적합 vs 과소적합 단원 마무리하기 이웃의 개수를 바꾸었을 때를 그래프로 그렸다. 학습을 마치고오후에는 정말 공부하기 싫었지만 그래도 지난 8월부터 매일 공부하는 습관을 길렀더니 두달이 다 되어 가는 지금은 거의 멈출 수 없는 습관이 되었다.귀는 다른 것을 들으면서 눈과 손과 머리는 끊임없이 책과 자료에 움직이고 있었다. 내가 봐도 정말 신기하다. 이제 다음 단원으로 넘어가도 될 것 같다. 최근접 이웃 모델도 ..
조금 늦은 아침을 먹고 아침 공부를 시작해 본다. 한 타임의 공부를 끝내고 다시 시작하려고 하면 언제나 하기 싫은 마음과 공부보다 더 하고 싶은 일 사이에서 많은 갈등을 한다. 조금 전에도 이러한 싸움을 하며 아까운 시간은 조금 허비하다 10시가 훌쩍 넘어 공부를 시작했다.이번 시간에는 k-최근접 이웃 회귀 모델에 대해서 좀 더 자세히 배우게 된다. 가능하면 공부를 1시간 반 안에 빨리 끝마치고 싶다. 지난 시간 복습 학습 목표지도 학습의 한 종류인 회귀 문제를 이해하고 k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 회귀 문제 풀어보기 시작하기 전에한빛 마켓이 농어를 무게 단위로 판매하려고 한다. 어떻게 농어의 무게를 예측할 수 있을까? 회귀의 임의의 숫자가 있을 때 주로 사용하는데 ..
이제 앞서 배운 데이터 전처리를 토대로 이상한 도미를 진짜 도미로 예측하도록 만드는 실습을 진행해볼 것이다. 데이터 전처리 실습해보기 하지만 데이터가 잘 섞이지 않았다. 이 부분을 해결해보면 다음과 같다. 이제 잘 섞여서 출력이 되고 있다. 가까운 이웃이 빙어에 몰려있음을 볼 수 있다. 거리가 많이 차이가 나는 것을 확인했다. 이제 기준을 맞출 차례이다. 조금 전에 전처리 코드를 쓰지 않아서 name 오류가 떠서 다시 코드를 쓰며 진행해보았다. 앞선 코드에서 표준편차가 아닌 일반 그래프로 표시가 되어 다시 수정해보았다. 하지만 잘못 쓴 코드는 지우지 않았다. 그래야 이런 과정을 거쳐 코드가 완성되는 것을 볼 수 있고, 나의 실수도 알게 된다.여기까..
이제 다시 공부에 집중해 볼 것이다. 오늘부터는 새벽 6시 반에 운동을 하기로 다짐했다. 그러니까 2시간이 조금 안 되는 시간 동안 데이터 전처리 공부를 모두 마칠 생각이다.올바른 결과 도출을 위해 데이터를 사용하기 전에 데이터 전처리 과정을 거친다. 지난 시간 복습찾고자 하는 대상을 양성, 그 외의 대상을 음성 클래스로 설정한다. 그리고 훈련 세트와 테스트 세트로 나누어 훈련과 평가를 한다. 그리고 배열 자체가 아닌 인덱스로 섞는다. 학습 목표전처리 과정을 거친 데이터로 훈련했을 때의 차이를 알고, 표준점수로 특성의 스케일을 변환하는 방법 배우기 시작하기 전에김팀장은 혼공머신에게 길이가 25cm이고 무게가 150g인데 빙어로 예측한다고 말했다. 도미 같은데 무슨 일이 일어난 걸까? 넘파이로 ..
이제 주피터 노트북을 열어 어제처럼 실습을 진행해보고 단원을 마무리하려고 한다. 난 이 시간이 정말 기대가 된다. 그럼 시작해보자. 훈련 세트와 테스트 세트 실습해보기 하지만 이상하게도 책과 다르게 정확도가 100%이다. 무엇이 문제인지 살펴보니 난 train 데이터만 가져와서 평가한 거였다. test가 없으니 당연히 1이 나온 것이다. 코드를 수정해보자. 이제 정확도가 0%이다. 데이터 샘플링이 필요한 시점이다. 훈련용 데이터와 테스트용 데이터가 잘 섞여있음을 확인할 수있다. 두 번째 머신러닝 프로그램 모델이 제대로 평가되었다. 단원 마무리하기 확인 문제 풀기 사이킷런은 입력 데이터에서 샘플이 행에 위치하고, 특성이 열에 놓여 있다고 기대한다...
저녁을 먹고 나니 정신이 조금 몽롱하지만 그래도 공부를 시작해 본다. 항상 내가 목표한 것의 1/3도 채우지 못할 때가 많아 실망이 크지만 그래도 목표가 있기에 하루하루가 기쁘고 감사하다.이제 새로운 단원에 들어갔다. 이번에는 데이터에 대해서 다루게 된다. 지난 시간 복습 k-최근접 이웃 모델로 빙어인지 도미인지 맞히는 실습을 진행했었다. 학습 목표지도학습과 비지도 학습의 차이를 배운다. 모델을 훈련시키는 훈련 세트와 모데을 평가하기 위한 테스트 세트로 데이터를 나누어 학습한다. 팀장은 혼공머싱의 보고서를 읽고 무척 의아해했다. 그것은 도미 35마리와 빙어 14마리를 이미 저장하고 맞추는 거라면 100% 정답을 맞히는 것이 당연하다는 것이다. 어떤 것이 도미이고 빙어인지 알고 있는데 맞추지 못하..