일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터분석
- 데이터입출력구현
- 머신러닝
- 혼공머신
- 컴퓨터구조
- 컴퓨터비전
- 정보처리기사필기
- CSS
- 운영체제
- C++
- 파이썬라이브러리
- SQL
- 정보처리기사실기
- 자바
- CNN
- 코딩테스트
- 중학1-1
- 연습문제
- 자바 실습
- pandas
- 데이터베이스
- 텍스트마이닝
- html/css
- 정수와유리수
- 딥러닝
- JSP/Servlet
- 중학수학
- 영어공부
- 파이썬
- numpy/pandas
- Today
- Total
목록선형분류모델 (7)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
선형 회귀와 분류의 평가 지표를 학습해보며 마지막 실습의 여정을 이어가려고 한다. 선형 회귀 평가지표 평균이 작을수록 오차가 적게 난다. 오차를 제곱하므로 차이값이 크게 난기에 원래 값에 제곱근을 한 RMSE가 있다. 선형 회귀 평가 지표모델이 100개 중에서 20개를 예측하면 20%의 정확도를 갖고 있다. 정확도만 보았을 때는 모델에 대해 잘못된 평가를 내릴 가능성이 크다. 그렇기에 이 외에 정밀도나 재현율 같은 분류 평가 지표가 존재한다. Confusion_matrix는 모델이 예측한 것과 실제에 대한 정보를 4분면으로 나누어 표기한 것이다. x축은 모델에 대한 예측을, y축은 실제 정보를 담는다. 실제도 양성과 음성으로 구분된다. 참 양성과 참 음성은 제대로 예측한 영역이 표기된다. 예를 들면 이직..
이제 하이퍼 파라미터 튜닝에 대한 학습부터 나머지 부분을 진행해볼 것이다. 밤 11시가 다 되었지만 아직 졸리지는 않고 공부를 더 할 수 있을 것 같다. 오늘은 최대한 늦게까지 취침하지 않고 버텨볼 것이다. 직원 이직 예측 실습해보기파라미터 중에서 사람이 직접 입력해서 작성하는 부분을 하이퍼 파라미터라고 한다. 모델의 상태에 따라 다음으로 분류할 수 있다. 과대적합 : 훈련 데이터의 성능은 좋지만 평가 데이터의 성능이 좋지 못하다과소적합 : 훈련용 데이터도 새로운 평가용 데이터 성능도 둘다 좋지 못하다일반화 : 훈련용 데이터와 평가용 데이터 성능도 모두 좋다우리는 모델의 성능의 일반화를 추구해야 한다. 데이터 상태, 하이퍼 파라미터에 따라 모델의 성능 상태가 변경된다. 1. 데이터 측면 : 데이..
이어서 직원 이직 관련 실습을 진행해보겠다. 현재 모델링 작업을 진행 중이고 훈련용 데이터와 평가용 데이터를 분리하는 작업부터 시작하게 될 것 이다. 직원 이직 예측 실습해보기훈련용과 평가용 데이터를 분리하는 이유는 인공지능을 믿을 수 없기 때문이다. 그냥 데이터를 준다고 해서 학습이 되는 것이 아니고 계속해서 평가를 해야 모델을 검증할 수 있다. 먼저 앞 부분에 라이브러리를 불러오는 코드를 하나 추가해주었다. 선생님은 하나의 셀에 만들어주었지만, 난 어떤 것을 먼저 실행하는지 알기 위해서 처음 작성할 때부터 분리해주었다. 테스트를 할 때 한번만 하는 것이 아니라 여러 번 하며 신뢰성을 확보하는 것이 좋다. 하지만 인공지능을 할 때 테스트를 여러 번 하는 것은 쉽지 않다. 필요한..
오늘 오후에 계속 놀고 먹고 잠을 자며 시간을 보내서 오늘은 새벽 늦게까지 날을 새고 공부를 해야 할 것 같다. 아무튼 다시 공부를 할 수 있어서 다행이다. 분명 쉬고 편안한 시간을 보냈으나 마음은 결코 편하지 않았다. 차라리 하기 싫은 마음을 이기고 건강한 음식을 선택하고 책상 앞에 다시 앉아 공부할 때가 마음이 편했을 것 같다.언제나 사람은 두 가지 선택 중에서 후회를 한다. 하지만 이것을 해도 저것을 해도 후회를 할 거라면 좋은 선택을 한 후에 후회를 하는 것이 나을 것이다. 이제 다시 선형분류 학습을 시작해볼 것이다. 선형 분류 모델 복습양성 클래스는 자신이 관심을 갖고 지금 예측하려는 모델을 말하고, 음성 클래스는 그 반대편에 있는 것이다. 예를 들어 직원들의 이직 예측을 하는 모델을 구현하..
이어서 직원의 이직을 예측하는 실습을 진행해볼 것이다. 아마도 이 실습은 앞으로 이틀 분량의 수업이 더 있는 것 같다. 차근차근 학습하다 보면 언젠가 이 내용도 쉬워질 때가 있을 것 같다.얼마 남지 않은 수업 집중해서 잘 마무리해보자! 직원 이직 예측 실습 두번째 연렬별 이직률 현황 여기서 컬럼을 하나 더 추가한다. 30대 이하가 이직률이 높음을 알 수 있다. 성별 이직률 현황 부서별 이직률 현황 학습을 마치고이번에는 주피터 노트북에 설명을 많이 썼기에 따로 코드 사이에 글을 많이 쓰지는 않았다. 그냥 내가 보려고 만드는 블로그이니 너무 깔끔하게 정리할 필요도 없고 내가 원하는 방식으로 기록하면 될 것이다.처음에는 이해가 되지 않..
지난 시간에 선형 분류 모델에 대한 개념 학습을 진행했다. 이번에는 배운 내용을 토대로 직원 이직을 예측하는 실습을 해볼 것이다. 선형분류 실습해보기 캐글 IBM 여기 등장하는 데이터로 실습을 할 예정이다. HR은 Human Resource의 약자로 직원들이 이탈할지 등을 보여주는 가상의 데이터이다. 데이터 주요 정보 직원의 이직 여부가 가장 중요하므로 이것을 정답 데이터로 쓸 것이다. 데이터의 타입을 확인하는 이유는 범주형 데이터는 학습하지 못하므로 수치형으로 바꾸어주어야 하기 때문이다. 한번만 실행해야 하며 다시 실행하면 위쪽 코드를 실행 후 해야 한다. 이미 값을 바꾸었기 때문이다. df라는 데이터프레임의 'Age'라는 열을 기준으로 나이를 3개의 범주(카테고리..
어제에 이어 오늘도 엄마와 함께 황토길 걷기를 갔다와서 맛있는 점심도 먹고 이제 오후 공부를 시작해보려고 한다. 공부하는 시간이 정말 기대가 된다. 오늘은 또 무엇을 배울 수 있을지 생각하며.. 오후에도 아침에 하다만 수업을 듣고 마무리를 해볼 것이다. 3시간 정도의 분량이 남아있는데 오늘은 집에 가는 날이라 많이는 공부를 하지 못할 것 같다.그래도 할 수 있는데까지 해보고 저녁에 또 이어서 진행해볼 것이다. 집값 예측 선형회귀 실습 마지막 이 코드가 실행되지 않고 계속 오류가 떠서 거의 1시간 가까이 코드를 분석하며 오류를 찾는 작업을 진행했다. 그리고 드디어 찾았다. 입력 특성에서 인코딩한 값을 쓰지 않고 이전의 값을 사용했기 때문이었다. 여기서는 문자열을 받지 못한다고 한다.어쨌든 해결이 되어 정..