일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- rnn
- 자바 실습
- ChatGPT
- 딥러닝
- 정보처리기사실기
- 정보처리기사필기
- 자바
- CSS
- 중학1-1
- 혼공머신
- html/css
- 자바스크립트심화
- JSP
- 머신러닝
- 중학수학
- 컴퓨터비전
- 데이터분석
- 개발일기
- c언어
- SQL
- 컴퓨터구조
- 연습문제
- 순환신경망
- JDBC
- 파이썬
- 자바스크립트
- 디버깅
- 상속
- JSP/Servlet
- 데이터베이스
- Today
- Total
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
머신러닝을 위한 데이터 준비하기 2 - 데이터 준비의 중요성과 파이프라인 본문
아침에 등교해서 30분 정도는 수업을 준비하기 위한 다른 일을 하는 편이다. 갑자기 생각난 일정이 있어서 처리했고, 컴퓨터 비전에 관한 두꺼운 책도 한 권 주문했다. 이제 내일이나 토요일에 책을 받아보면 다음주부터 공부할 수 있을 것 같다. 점차 목표에 가까워지는 것 같아서 정말 기쁘고 행복하다.
오늘은 엘리스로 머신러닝 3주차 수업을 모두 듣으며 11시 전까지 모두 마칠 것이다. 그 다음에 2시간 정도는 텍스트 마이닝 두 시간 수업을 듣고 정리할 것이며 점심시간에는 아침에 했던 영어공부를 더 하고 싶어 짬을 내서 해보고 싶다.
그런 다음에 오후에도 계속해서 텍스트 마이닝 수업을 듣고 정리하며 저녁에 집에 가서도 한 다음에 오늘 저녁에 2시간은 반드시 정보처리기사 실기 공부를 해볼 것이다. 그럼 오늘의 공부를 시작해보자!
이론 2 - 더이터 준비의 중요성과 파이프라인
실제 문제 해결에 도움이 되는지 생각해야 한다. 그렇지 않으면 좋은 결과를 얻을 수 없다.
feature는 컴퓨터가 이해할수록 더 좋은 모델이 된다.
먼저 데이터를 수집하고 확보하는 과정을 거친다. 그런 다음 처리하고 가공을 거쳐 머신러닝 모델을 만드는 것이다. 이중에서도 Feature Engineering은 가공할 때 도메인에 대한 정보가 중요하다.
머신러닝 프로젝트 성공의 열쇠
우리가 전달받은 데이터는 꽉 뭉쳐진 종이와 같다. 이것을 펴는 작업이 Feature Engineering이라고 할 수 있다.
Data Proprocessing과 Feature Engineering은 같은 개념은 아니다. Data Proprocessing은 도메인에 대한 영향을 좀더 덜 받는 부분이다.
결측값을 처리하는 작업도 해야 한다.
머신러닝은 Data Proprocessing을 통해 예측을 더 잘하기 위함에 있다.
feature은 크게 숫자형과 범주형으로 나뉜다. 이 둘에 따라 데이터를 처리하고 가공하는 방식이 달라지게 된다.
퀴즈 6 - 데이터 준비 파이프 라인
앞의 자료를 보면서 풀어보았다.
퀴즈 4 - Types of Feature
문제를 잘 풀었다. 3주차 이론 수업은 여기까지가 마지막이고 이제 실습 문제만 남아있다.
학습을 마치고
무슨 말인지는 잘 모르겠지만 머신러닝을 할 때 필요한 단계를 설명하는 것 같았다. 그냥 이런 게 있구나 하며 가볍게 보고 넘어가는 것도 괜찮다. 그리고 나중에 더 깊게 공부해볼 때 이 부분이 생각날 수도 있고 그때 다시 한번 공부했던 것들을 떠들어보면서 정리해볼 수 있을 것이다.
이제 실습 문제를 풀어보며 3주차에 무엇을 배웠는지 정리해볼 것이다.
'인공지능 > 머신러닝' 카테고리의 다른 글
머신러닝을 위한 데이터 이해하기 4 - 도메인 지식을 늘려 데이터 준비하기 (0) | 2024.09.19 |
---|---|
머신러닝을 위한 데이터 이해하기 3 - 도메인 지식 없이 Data Processing 하기 (0) | 2024.09.19 |
머신러닝을 위한 데이터 이해하기 1 - 머신러닝을 위한 핵심 개념 살펴보기 (0) | 2024.09.19 |
머신러닝 14 - 선형 분류 모델 실습해보기 6 : 선형 회귀와 선형 분류 평가 지표 및 모델 평가해보기 (0) | 2024.09.19 |
머신러닝 13 - 선형 분류 모델 실습해보기 5 : 직원 이직 분석 실습으로 본 모델 복잡도와 하이퍼 파라미터 튜닝에 대하여 (0) | 2024.09.19 |