일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 운영체제
- numpy/pandas
- 혼공머신
- 텍스트마이닝
- 연습문제
- CSS
- 중학수학
- pandas
- CNN
- 데이터입출력구현
- 코딩테스트
- 딥러닝
- SQL
- 정보처리기사실기
- 파이썬
- 머신러닝
- 중학1-1
- 정보처리기사필기
- html/css
- 데이터베이스
- C++
- 데이터분석
- 컴퓨터비전
- 정수와유리수
- 컴퓨터구조
- JSP/Servlet
- 자바 실습
- 영어공부
- 파이썬라이브러리
- 자바
- Today
- Total
목록머신러닝 (93)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
점심을 먹고 2시 반이 조금 넘어서 다시 오후 공부를 시작해본다. 점심 시간에 공부를 좀더 하느라 늦게 출발을 한데다 점심 때 영어 공부를 식사하며 했더니 평소보다 인사교에 늦게 도착했다. 난 어딜가든 선생님들이 자유롭게 풀어주는 편이라 규율에 얽매이지 않아서 정말 감사하다.이제 다시 오후 공부를 시작해볼 것이다. 혐오 표현 클라우드 실습을 진행해볼 차례이다. 한국어 혐오 표현 실습해보기 세번째 다른 분류를 보고 싶다면 이름만 바꾸어주면 된다. 먹다, 먹는다, 먹었다 등 모든 것이 먹는 행위이니 먹만 추출할 수 있다. 문장 부호와 같은 단어의 중복을 제거할 것이다. 손쉽게 할 수 있는 방법으로 정규 표현식을 사용해본다. 이것은 파이썬뿐 아니라 자바, 자바스크립트 등 많은 언어에서 지원..
이어서 텍스트 마이닝 학습을 진행해보겠다. 분량이 생각보다 많은데 과연 오늘 안에 이틀치 수업을 모두 학습하고 내용을 정리할 수 있을지 의문이지만 열심히 해볼 것이다. 이제 아침 공부 시간도 20분도 남지 않았다. 다 하지 못한 건 오후에 이어서 해볼 것이다. 한국어 혐오 표현 텍스트 마이닝 실습 두번째 단어 추출하기 중복되는 단어도 많으므로 이런 작업을 할 때는 전처리 작업을 해주는 것이 좋다. 띄어쓰기와 오타도 교정한 후에 빈도 분석을 해야 올바른 결과를 얻을 수 있다. 여기서는 빈도수가 높은 100개의 단어를 보여주도록 했다. 워드 클라우드 설치 및 한글 폰트 설정 설치한 다음에는 다시 실행되지 않도록 주석 처리를 해준다. 그리고 원드 클라우드가 한글을 지원하지 않아 깨질 수도 있..
머신러닝에서 이 단원만 학습하면 이제 끝이 날 것 같다. 오늘과 내일 이틀에 걸쳐 머신러닝을 모두 마치고 주말에는 딥러닝을 공부해볼 예정이다.이제 거의 끝이 보이는 것 같아 무척 만족스럽다. 처음 이 공부를 시작했을 때 얼마나 두렵고 걱정이 되었는지 모른다. 하지만 파이썬을 공부해놓으니 데이터 분석도 머신러닝도 모두 할만해졌다. 이 모든 것은 그동안 포기하지 않고 공부한 결과이다. 6월부터 난 나름 목표를 정해 단계와 분야로 개발 공부에 집중했다. 아마도 7월에 공부했던 정보처리기사 필기와 데터베이스도 지금의 공부에 많은 도움이 되었다. 이제 텍스트 마이닝 공부를 본격적으로 시작해보자. 아직 쉬는 시간을 갖지 못했지만 조금만 하고 쉬어볼 것이다. 텍스트 마이닝의 개념 텍스트 마이닝은 글자와 캐다라는 ..
이제 두번째 실습을 진행해보겠다. 먼저 타이타닉 침몰에 대한 동영상도 함께 제공하고 있어 무척 재미있는 수업이 될 것 같다. 실습 1-2 : 타이타닉호 침몰 상황 파악하기 타이타닉호 침몰 동영상 타이타닉 호가 침몰하는 상황을 자세히 보여주고 있는 영상이다. 한국어 자막이 없어서 조금 아쉽지만 말이다. 실습 2-2 : 타이타닉호 침몰과 관련된 도메인 지식을 늘려보기 실습 2-3 : 도메인 지식을 늘려 데이터 준비하기 실습 문제 풀어보기 두번째 지시사항까지 완료한 코드이다. 이제 모델의 성능을 78% 이상으로 높여야 한다. 두번째 지시사항의 값을 변경하여 이 성능을 높여주면 된다. 이제 모델 성능이 78% 이상이 되었다. 채첨하는데 조금 오래 걸리지는 했지만 잘 풀었다. 단..
두 가지의 실습이 준비되어 있다. 먼저 첫번째 실습부터 진행해볼 것이다. 실습 1-1 데이터 준비가 필요한 타이타닉 데이터 실습 1-2 도메인 지식 없이 Data Processing 하기 main.py without_domain.py elice_utlis.py 그리고 데이터에는 png 이미지 파일과 titanic.csv 파일이 들어있었다. csv 파일에는 10명의 탑승객의 정보가 이처럼 테이블 형태로 만들어져 있었다. 이제 본격적인 실습을 해보자! 실습해보기먼저 실행 결과를 확인해보면 다음과 같다. 첫번째 실습 결측치의 비율을 확인할 수 있다. 두번째 실습 세번째 실습 네번째 실습먼저 성별로 변환하는 코드이다. 탑승한 곳까지 변환해보았다. 여기까지 실습을 진행해보았..
아침에 등교해서 30분 정도는 수업을 준비하기 위한 다른 일을 하는 편이다. 갑자기 생각난 일정이 있어서 처리했고, 컴퓨터 비전에 관한 두꺼운 책도 한 권 주문했다. 이제 내일이나 토요일에 책을 받아보면 다음주부터 공부할 수 있을 것 같다. 점차 목표에 가까워지는 것 같아서 정말 기쁘고 행복하다.오늘은 엘리스로 머신러닝 3주차 수업을 모두 듣으며 11시 전까지 모두 마칠 것이다. 그 다음에 2시간 정도는 텍스트 마이닝 두 시간 수업을 듣고 정리할 것이며 점심시간에는 아침에 했던 영어공부를 더 하고 싶어 짬을 내서 해보고 싶다.그런 다음에 오후에도 계속해서 텍스트 마이닝 수업을 듣고 정리하며 저녁에 집에 가서도 한 다음에 오늘 저녁에 2시간은 반드시 정보처리기사 실기 공부를 해볼 것이다. 그럼 오늘의 공부..
오늘은 평소보다 조금 늦게 일어나서 하루를 시작했다. 매일 해야 하는 일들과 새벽에 하는 공부 두 가지를 마치고 나니 벌써 8시가 넘었지만 새벽 공부를 시작해본다.오늘은 수업 하나만 듣고 인사교 수업에 가려고 한다. 아침 요가는 바빠서 하지 못할 수도 있을 것 같다. 그래도 하는데까지 공부를 진행해볼 것이다. 오늘부터는 텍스트 마이닝 학습에 들어간다. 어떤 수업이 될지 기대가 된다.이번 시간에는 엘리스로 첫번째 수업을 들어볼 것이다. 이론 1 - 머신러닝을 위한 핵심 개념 살펴보기 머신러닝을 위한 핵심개념 살펴보기 1 : Data, Feature, Target 우리가 사는 세상을 퍼즐로 표현했을 때 이러한 것들을 조작하고 현상을 표현하는 것이다. 좋은 데이터가 나오기 위해서는 측정..
선형 회귀와 분류의 평가 지표를 학습해보며 마지막 실습의 여정을 이어가려고 한다. 선형 회귀 평가지표 평균이 작을수록 오차가 적게 난다. 오차를 제곱하므로 차이값이 크게 난기에 원래 값에 제곱근을 한 RMSE가 있다. 선형 회귀 평가 지표모델이 100개 중에서 20개를 예측하면 20%의 정확도를 갖고 있다. 정확도만 보았을 때는 모델에 대해 잘못된 평가를 내릴 가능성이 크다. 그렇기에 이 외에 정밀도나 재현율 같은 분류 평가 지표가 존재한다. Confusion_matrix는 모델이 예측한 것과 실제에 대한 정보를 4분면으로 나누어 표기한 것이다. x축은 모델에 대한 예측을, y축은 실제 정보를 담는다. 실제도 양성과 음성으로 구분된다. 참 양성과 참 음성은 제대로 예측한 영역이 표기된다. 예를 들면 이직..
이제 하이퍼 파라미터 튜닝에 대한 학습부터 나머지 부분을 진행해볼 것이다. 밤 11시가 다 되었지만 아직 졸리지는 않고 공부를 더 할 수 있을 것 같다. 오늘은 최대한 늦게까지 취침하지 않고 버텨볼 것이다. 직원 이직 예측 실습해보기파라미터 중에서 사람이 직접 입력해서 작성하는 부분을 하이퍼 파라미터라고 한다. 모델의 상태에 따라 다음으로 분류할 수 있다. 과대적합 : 훈련 데이터의 성능은 좋지만 평가 데이터의 성능이 좋지 못하다과소적합 : 훈련용 데이터도 새로운 평가용 데이터 성능도 둘다 좋지 못하다일반화 : 훈련용 데이터와 평가용 데이터 성능도 모두 좋다우리는 모델의 성능의 일반화를 추구해야 한다. 데이터 상태, 하이퍼 파라미터에 따라 모델의 성능 상태가 변경된다. 1. 데이터 측면 : 데이..
이어서 직원 이직 관련 실습을 진행해보겠다. 현재 모델링 작업을 진행 중이고 훈련용 데이터와 평가용 데이터를 분리하는 작업부터 시작하게 될 것 이다. 직원 이직 예측 실습해보기훈련용과 평가용 데이터를 분리하는 이유는 인공지능을 믿을 수 없기 때문이다. 그냥 데이터를 준다고 해서 학습이 되는 것이 아니고 계속해서 평가를 해야 모델을 검증할 수 있다. 먼저 앞 부분에 라이브러리를 불러오는 코드를 하나 추가해주었다. 선생님은 하나의 셀에 만들어주었지만, 난 어떤 것을 먼저 실행하는지 알기 위해서 처음 작성할 때부터 분리해주었다. 테스트를 할 때 한번만 하는 것이 아니라 여러 번 하며 신뢰성을 확보하는 것이 좋다. 하지만 인공지능을 할 때 테스트를 여러 번 하는 것은 쉽지 않다. 필요한..