일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 텍스트마이닝
- JSP/Servlet
- 정보처리기사실기
- 데이터입출력구현
- 정수와유리수
- SQL
- 딥러닝
- 데이터베이스
- 연습문제
- 정보처리기사필기
- html/css
- numpy/pandas
- pandas
- 자바
- C++
- CNN
- 파이썬
- 영어공부
- CSS
- 중학1-1
- 컴퓨터구조
- 코딩테스트
- 데이터분석
- 중학수학
- 혼공머신
- 머신러닝
- 운영체제
- 자바 실습
- 파이썬라이브러리
- 컴퓨터비전
- Today
- Total
목록혼공머신 (28)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
비지도 학습의 마지막 여정이 남아있다. 주성분 분석에 대한 실습을 바로 시작해보자. 주성분 분석 실습해보기 이 함수를 먼저 구현해야 사용할 수 있다. 과일이 잘 복원되었다. 이 코드를 실행하면 로지스틱 회귀 모델이 완전히 수렴하지 못했으니 반복 횟수를 증가하라는 경고가 출력된다. 하지만 교차 검증의 결과가 충분히 좋기 때문에 무시해도 괜찮다. 단원 마무리하기 모든 문제를 다 맞추었다. 공부를 제대로 했다는 증거일 것이다. 학습을 마치고오늘 새벽 4시부터 거의 쉬지도 않고 10시간을 공부했다. 내가 생각해도 참 대단하고 기특했다. 이제 오후 수업에 갈 준비를 해야겠다. 오늘은 아무 이유없이 공부가 하고 싶어 지각한 날이었다.비지도학습까..
비지도 학습의 마지막 단원이다. 이 공부도 최대한 빠르게 학습해 볼 것이다. 학습 목표차원 축소에 대해 이해하고 대표적인 차원 축소 알고리즘 중 하나인 PCA(주성분 분석) 모델을 만들어본다. 시작하기 전에k-평균 알고리즘으로 업로드된 사진을 클러스터에 분류하여 폴더별로 저장했다. 그런데 이벤트가 진행되면서 문제가 생겼다. 너무 많은 사진이 등록되어 저장 공간이 부족하다. 나중에 군집이나 분류에 형향을 끼치지 않으면서 업로드된 사진의 용량을 줄일 수 있을까? 차원과 차원 축소지금까지 데이터가 가진 속성을 특성이라 불렀다. 머신러닝에서는 이런 틈성을 차원이라고도 부른다. 10000개의 특성은 결국 10000개의 차원이라는 것인데, 이 차원을 줄일 수 있다면 저장 공간을 크게 절약할 수 있다.2차원 ..
k-평균 알고리즘에 대한 실습을 진행해볼 것이다. k-평균 알고리즘 실습해보기메모리 누수가 발생하는 경고창이 뜨고 있다. 이 경고 메시지는 KMeans 알고리즘을 사용하는 동안 Windows 운영체제에서 특정 상황에서 메모리 누수(memory leak)가 발생할 수 있음을 알려주는 것이다. 이 문제는 MKL (Intel의 수학 커널 라이브러리, Math Kernel Library)와 관련이 있으며, 특히 사용 가능한 스레드 수보다 처리해야 할 데이터 청크가 적을 때 발생할 수 있다. 그냥 놔두어도 되지만 완벽한 코드 작성을 위해 해결해보기로 했다. 하지만 문제는 해결되지 않았다. 그냥 넘어가지로 했다. 여기에 시간은 많이 투자할 수 없으니까. 하지만 여전히 ..
이번에는 평균 알고리즘에 대해 학습해 보겠다. 학습 목표k-평균 알고리즘의 작동 방식을 이해하고, 과일사진을 자동으로 모으는 비지도 학습 모델을 만들어본다. 시작하기 전에이전 학습에서 사과, 파인애플, 바나나에 있는 각 픽셀의 평균값을 구하서 가장 가까운 사진을 골랐다. 하지만 진짜 비지도 학습에서는 사진에 어떤 과일이 들어있는지 알지 못한다.이런 경우 어떻게 평균을 구할 수 있을까? 바로 k-평균 군집 알고리즘이 평균값을 자동으로 찾아준다. 이 평균값이 클러스트의 중심에 위치하기 때문에 클러스트 정 심 또는 센트로이드라고 부른다. k-평균 알고리즘 소개k-평균 알고리즘의 작동 방식은 다음과 같다.무작위로 k개의 클러스터 중심을 정한다.각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터..
군집 알고리즘에 대한 실습을 진행해볼 것이다. 군집 알고리즘 실습해보기 난 코랩이 아닌 주피터 노트북에서 실행하기에 책과는 다른 방식으로 파일을 다운받아야 했다. 이렇게 하니 잘 되었다. 파일은 맨 아래에 저장이 잘 되어 있다. 이제 데이터를 로드하며 실행해보겠다. 첫번째 이미지는 사과같다. 단원 마무리하기 뭔가 오류가 잔뜩 떴다. 이름을 하나 잘못 지정해서 틀린 거였다. 바나나가 아닌 것 마지막에 2개만 빼고 모두 바나나가 잘 출력되는 것을 볼 수 있다. 학습을 마치고 이렇게 40분만에 모든 실습을 마치고 확인문제까지 풀어볼 수 있어서 좋았다. 왠지 아침 시간에 6단원 학습을 모두 마칠 수 있을 것 같은 예감이 든다. 오늘은 아마도 수학공부는 못..
머신러닝의 마지막 단원 학습이 남아있다. 이것도 세 장으로 나누어져 있으니 공부하는데 한참의 시간이 걸릴 것 같다. 가능하면 오늘 오후 2시 전에는 공부를 다 마칠 생각이다.그럼 군집 알고리즘부터 공부를 시작해 보자. 학습 목표흑백 사진을 분류하기 위해 여러 가지 아이디어를 내면서 비지도 학습과 군집 알고리즘에 대해 이해하기 시작하기 전에한빛 마켓은 낭산물 판매로 확대하며 새 이벤트를 기획하고 있다. 고객이 한빛 마켓에서 사고 싶은 과일 사진을 보내면 그중 가장 많이 요청하는 과일을 판매 품목으로 선정하려 한다. 또 1위로 선정된 과일 사진을 보낸 고객 중 몇 명을 뽑아 이벤트 당첨자로 선정할 것이다. 사진에 대한 정답(타깃)을 알지 못하는데 어떻게 이 사진을 종류대로 모을 수 있을까? 타깃을 ..
이제 트리 앙상블에 대한 실습을 진행해볼 것이다. 무척 어려운 내용이지만 차근차근 실습을 진행해보자. 가능하면 30분 안에 다 마치고 싶다. 트리 앙상블 실습해보기 xgboost를 사용하기 위해서는 라이브러리를 설치해야 한다. 책에는 이 내용이 빠져있었다. 이상하게도 계속 오류가 떠서 찾아보니 이 코드를 추가하는 거였다. LightGBM도 사용하려면 라이브러리를 설치해야 한다. 아마도 코랩에서는 그냥 제공하기 때문에 설치할 필요가 없어 책에는 기록하지 않았던 것 같다. 하지만 난 공부할 때 코랩보다는 주피터 노트북에서 해야 진짜 공부가 된다고 생각한다. 이건 버전도 최신으로 그냥 업데이트 되고 제대로 되고 있는지 확인도 잘 안 되는 것 같다. 단원 마무리하기 ..
이제 5단원의 마지막 장인 트리 앙상블에 대해서 학습해보려고 한다. 이번 단원도 그래프는 하나도 없고 코드만 있지만 그래도 재미있게 학습을 진행하려고 한다.트리 앙상블로 처음 공부해 보는 내용이다. 학습 목표앙상블이 무엇인지 이해하고 다양한 앙상블 학습 알고리즘을 배운다. 시작하기 전에혼공머신은 이제 베스트 머신러닝 알고리즘을 찾아보려고 한다. 그리고 랜덤 포레스트라는 알고리즘에 눈길이 간다.가장 좋은 알고리즘이 있다고 해서 다른 알고리즘을 배울 필요가 없는 것은 아니다. 보편적으로 성능이 좋아 널리 사용되는 알고리즘이 있지만 문제마다 다를 수 있다. 그렇기에 어떤 알고리즘이 더 뛰어나다고 미리 판단해서는 안된다. 정형 데이터와 비정형 데이터지난 학습을 되돌아보자. 4장까지 생선의 길이, 높이, ..
이제 교차 검증과 그리드 서치에 대한 실습을 진행해보려고 한다. 이번 예제는 그래프가 없이 코드만 있어 조금은 단조로울 것 같다. 교차 검증 실습해보기 이 모델은 훈련 세트에 과대적합되어 있다. 그러니 매개변수를 바꿔서 더 좋은 모델을 찾아야 한다. 교차 검증 import 할때 StratifiedGroupKFold와 헤깔려서 잘못 쓰기도 했다. 이러면 제대로 작동이 되지 않으니 꼭 주의하자. 단원 마무리하기 확인 문제 풀기 결정 트리의 노드를 랜덤하게 분할하기 때문에 100번의 반복에서 최적의 매개변수 조합을 찾지 못한다. 평균 검증 점수와 테스트 세트의 점수가 조금 낮다. 학습을 마치고기본 내용 정리 1시간, 실습과 확인문제를 푸는데 1시간 정도..
오늘 새벽에 4시간 동안 두 단원의 학습을 모두 마칠 수 있을까? 최선을 다해 어제 저녁에 하지 못했던 공부를 만회하기로 했다. 오늘은 새벽에 운동을 하지 못할 것 같다. 학습 목표검증 세트가 필요한 이유를 이해하고 교차 검증에 대해 배운다. 그리드 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼라라미터를 찾는다. 시작하기 전에지금까지 우리는 훈련 세트에서 모델을 훈련하고 테스트 세트에서 모델을 평가했다. 그런데 테스트 세트를 사용해 자꾸 성능을 검증하다 보면 점점 테스트 세트에 맞춰지게 된다. 이전까지는 문제를 간단히 하려고 테스트 세트를 사용했다. 하지만 테스트 세트로 일반화 성능을 올바르게 예측하려면 가능한 한 테스트 세트를 사용하지 말아야 한다. 모델을 만들고 나서 마지막에 딱 한 번만 ..