일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터분석
- 언리얼학습
- JSP/Servlet
- 이수증
- 선형분류모델
- html/css
- 텍스트마이닝
- 파이썬
- 데이터베이스
- 자바
- numpy/pandas
- 핵심프로젝트
- 중학수학
- 코딩테스트
- pandas
- 딥러닝
- 언리얼프로젝트
- 디버깅
- 요구사항확인
- 자연수의성질
- C++
- Orange
- 선형회귀모델
- 머신러닝
- c언어
- 정보처리기사실기
- 데이터시각화
- 자바 실습
- 정보처리기사필기
- 데이터입출력구현
- Today
- Total
목록머신러닝 (49)
클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지
보호되어 있는 글입니다.
4주차의 두번째 실습을 시작해보겠다. 이 실습 문제를 다 풀고 나면 이제 정보처리기사 실기시험 공부를 시작하려고 한다. 오늘부터 매일 저녁 혹은 새벽에 2시간 반 이상 공부해볼 생각이다. 오늘은 첫날이니 2시간 정도 하고 내일은 좀더 많이 해볼 예정이다.금요일에도 놀지 않고 공부를 하다니 내게 기적이 일어나고 있었다. 요즘은 노는 것보다 공부하는 것이 훨씬 더 즐겁다. 이제 문제를 풀어보자. 최종 테스트 문제도 남아있지만 그건 내일 맑은 정신으로 풀어봐야겠다. 실습 2 - 타켓 마케팅의 기대 손익과 예상 수익 평가하기 실습 문제 풀어보기 main.py model_dvaluation.py 이제 지시사항에 따라 코드를 입력해보겠다. 문제를 잘 풀었다. 학습을 마치고정리 영상까지 ..
실습을 바로 진행해보겠다. 오후 공부 시간도 10분 정도 남았지만 조금만 더 공부하다가 못한 건 집에 와서 해볼 것이다. 실습 1 - 누구에게 프로모션을 제공해야 할까?실습 문제에 제공된 파일 main elice_utils.py target_marketing.py 코드가 굉장히 길어서 캡처를 안할까 하다가 해보았다. 나중에 공부할 때 도움이 될 것 같았다. 그리고 bank.csv 파일에는 이와 같은 테이블이 들어있었다. 실습 문제 풀어보기 이 내용은 문제를 풀기 전의 코드를 그냥 실행시켰을 때이다. 이제 지시사항대로 코드를 작성해보겠다. 이렇게 Confusion matrix와 그래프가 잘 그려졌다. 학습을 마치고집에 도착해서 20분 정도 이 문제를 풀다가 저녁식사..
첫번째 실습은 은행의 마케팅 데이터를 파악하는 일이다. 그 전에 모델 평가에 대한 학습 영상이 남아있어 이 부분도 공부하며 내용을 정리해보았다. 무척 유익한 수업이었다. 실습 1-1 : Bank Target Marketing 데이터 샘플 실습 수업 - 모델 평가하기 혼동 행렬과 확률 행렬에 대하여 각 확률을 곱해서 더하면 모델 전체의 기대 손익이 나오게 된다. 혼동 행렬과 확률 행렬 예시해당 상품에 가입한 여부를 예측하는 예시를 들어볼 때 다음과 같이 행렬을 만들 수 있다. 머신러닝 관점에서 정확도를 판단할 수 있다. 학습을 마치고아직 중요한 수업이 남아있었다. 모델 평가에 대한 부분이었는데 내용이 어려워서 많이 이해하지는 못했지만 지금은 가볍게 훑고 넘어가기로..
마지막 이론 수업이 될 것 같다. 그리고 이제 실습 문제를 풀어볼 수 있을 것이다. 이론 3 - 머신러닝 모델 구축과 평가 모델별로 사용하는 알고리즘이 다르니 이 부분을 학습하는 것이 좋다. 퀴즈 3 - 머신러닝 모델 구축과 평가 문제를 잘 풀었다. 학습을 마치고수업 영상이 짧아서 이 많은 내용을 설명하기에는 한계가 있었다. 그래도 인사교 수업 시간에 배운 내용들이 많아서 어느 정도 이해가 되었고 알고 있는 부분도 있어서 반가웠다.이론 수업은 모두 마쳤고 이제 실습을 하는 일만 남아있다. 여기까지 오기까지 힘들었지만 무척 잘 해낸 것 같아 기쁘다. 이제 실습을 하러 가봐야지. 오후 수업도 30분밖에 남지 않아서 아쉬운 마음이 든다.
두번째 이론 수업을 시작해본다. 4주차 이론 수업은 세번째까지 있는데 이 부분까지 하고 쉬는 시간을 가져볼 것이다. 이론 2 - 현실의 문제를 머신러닝 문제로, 효과 검증 설계 앞서 소개한 분류, 회귀, 군집화 외에 다양한 머신러닝 문제가 있다. 문제 정의를 하고 가설 설정을 한 것이 맞는지 계속해서 검증하며 프로젝트를 진행해 나가야 한다. 퀴즈 2 - 현실의 문제를 머신러닝 문제로 이 문제는 3번이나 다 틀리리고 남은 답지가 없을 때 맞출 수 있었다. regression은 회귀니까 숫자와는 관련이 없는 범주라고 생각했었다. 헬퍼의 답변을 듣고 이제 이해가 되었다. 학습을 마치고머신러닝에는 선형회귀와 선형분류 모델밖에 배우지 않아서 잘 몰랐는데 그 외에도..
마지막 4주차 수업을 시작해본다. 이 과목은 가볍게 공부할 수 있어서 나름 유익했다. 처음에는 강사님이 별로 중요하지 않는 내용을 설명하는 것 같고 목소리도 마음에 들지 않았다. 하지만 이제 끝날 때가 되니 이 수업도 의미가 있었다는 생각이 든다.오후 공부 시간도 이제 1시간 15분밖에 남지 않았지만 남은 시간까지 최선을 다해서 공부를 잘 마무리해볼 것이다. 이론 1 - 문제 정의, 머신러닝 학습 유형 머신러닝 업무 익히기의사결정을 지원하고 수익을 높이는데 있다. 어떤 문제 해결이 더 중요한지 파악한 후 그 문제를 중점적으로 파악한다. 머신러닝은 지도학습과 비지도학습으로 나뉘어진다. 예측은 지도학습, 패턴 분석은 비지도학습에 가깝다. 지도학습은 inpu..
이번에는 새 프로젝트로 유사도 분석이라는 것을 해볼 것이다. 단어 유사도 분석 실습해보기모든 거리를 좌표 공간 안에서 판단한다. 희소한 데이터란 숫자로 채워지지 않고 0으로 채워진 빈 데이터가 많은 것들을 말한다. 이런 데이터에서 유클리디언 공식을 사용하면 올바르지 못한 결과가 나타난다. BOW처럼 잘 동작하지 않기에 비슷한 feature로 맞추어주는 것이 좋다. A와 B의 차이를 구한다. 같은 단어를 빈도만 다르게 사용하는 단어가 더 유사한 단어일 가능성이 크다. 데이터의 크기보다는 방향성을 더 중시한다. 텍스트 마이닝에서는 코사인 유사도를 더 선호한다. 학습을 기반으로 구글에서 만든 워드 인베딩이다. 임베디드는 이식한다는 의미를 갖고 있다. 사과라는 단어를 떠올릴 때도 사람마다 생각하는..
오후에 2시 반이 다 되어 이제 다시 공부를 시작해본다. 가능하면 5시까지 마지막날 수업을 모두 듣고 정리해보려고 한다. 그리고 조금 쉬었다가 마지막 30분 조금 넘는 시간 동안은 엘리스로 머신러닝 4주차 학습을 진행할 것이다.지난 시간에 공부했던 베스트 모델 로딩부터 시작해볼 것이다. 텍스트 마이닝 응용 실습해보기텍스트 마이닝에서는 입력 특성에 단어가 들어간다. 해당 단어가 얼마나 가중치가 있는지 알아보는 것이다. 2034개의 단어가 얼마나 가중치가 있는지 분석하게 된다. 단어마다 인덱스가 딕셔너리 형태로 출력되고 있다. 리스트는 순서가 있지만 딕셔너리는 순번이 없다. 하지만 가중치는 0번부터 순서대로 나열이 되어 있으므로 이를 정렬해야 한다. 시각화로 나타내기단어가 너무 많아..
텍스트 마이닝 넷째날 마지막 교시 수업을 듣고 강의 내용을 정리해볼 것이다. 오늘 아침까지 이 수업까지 정리를 마쳤으면 했는데 목표를 대부분 달성할 수 있을 것 같다.요즘은 내가 세운 목표를 이루지 못하는 날이 별로 없었다. 내가 마음만 먹으면 무엇이든지 할 수 있는 사람임을 스스로 체험한 시간들이었다. 텍스트 마이닝 응용 실습해보기파이프라인을 구축해서 한번에 튜닝을 할 수 있도록 작업을 진행한다. 규제를 판단할 때 테스트 데이터 하나보다는 여러 개를 하는 것이 안정적이다. grid_prams는 모든 경우의 수를 다 돌려보는 것 이다. 252 조합을 확인한 후 이 중에 어떤 조합이 가장 괜찮은지 알려준다. 파이프라인으로 묶어주었기 때문에 오리지널 text 데이터를 넣어야 한다. 그리고 파이프라인을 ..