클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

머신러닝을 위한 데이터 준비하기 2 - 데이터 준비의 중요성과 파이프라인 본문

인공지능/머신러닝

머신러닝을 위한 데이터 준비하기 2 - 데이터 준비의 중요성과 파이프라인

huenuri 2024. 9. 19. 10:02

아침에 등교해서 30분 정도는 수업을 준비하기 위한 다른 일을 하는 편이다. 갑자기 생각난 일정이 있어서 처리했고, 컴퓨터 비전에 관한 두꺼운 책도 한 권 주문했다. 이제 내일이나 토요일에 책을 받아보면 다음주부터 공부할 수 있을 것 같다. 점차 목표에 가까워지는 것 같아서 정말 기쁘고 행복하다.

오늘은 엘리스로 머신러닝 3주차 수업을 모두 듣으며 11시 전까지 모두 마칠 것이다. 그 다음에 2시간 정도는 텍스트 마이닝 두 시간 수업을 듣고 정리할 것이며 점심시간에는 아침에 했던 영어공부를 더 하고 싶어 짬을 내서 해보고 싶다.

그런 다음에 오후에도 계속해서 텍스트 마이닝 수업을 듣고 정리하며 저녁에 집에 가서도 한 다음에 오늘 저녁에 2시간은 반드시 정보처리기사 실기 공부를 해볼 것이다. 그럼 오늘의 공부를 시작해보자!


 

 

 

이론 2 - 더이터 준비의 중요성과 파이프라인

실제 문제 해결에 도움이 되는지 생각해야 한다. 그렇지 않으면 좋은 결과를 얻을 수 없다.

 

 

 

feature는 컴퓨터가 이해할수록 더 좋은 모델이 된다.

 

 

 

 

 

먼저 데이터를 수집하고 확보하는 과정을 거친다. 그런 다음 처리하고 가공을 거쳐 머신러닝 모델을 만드는 것이다. 이중에서도 Feature Engineering은 가공할 때 도메인에 대한 정보가 중요하다.


 

 

 

머신러닝 프로젝트 성공의 열쇠

 

우리가 전달받은 데이터는 꽉 뭉쳐진 종이와 같다. 이것을 펴는 작업이 Feature Engineering이라고 할 수 있다.

 

 

 

 

Data Proprocessing과 Feature Engineering은 같은 개념은 아니다. Data Proprocessing은 도메인에 대한 영향을 좀더 덜 받는 부분이다.

 

 

 

결측값을 처리하는 작업도 해야 한다.

 

 

 

머신러닝은 Data Proprocessing을 통해 예측을 더 잘하기 위함에 있다.

 

 

 

 

 

 

 

 

feature은 크게 숫자형과 범주형으로 나뉜다. 이 둘에 따라 데이터를 처리하고 가공하는 방식이 달라지게 된다.


 

 

 

퀴즈 6 - 데이터 준비 파이프 라인

 

 

앞의 자료를 보면서 풀어보았다.


 

 

 

 

퀴즈 4 - Types of Feature

 

 

문제를 잘 풀었다. 3주차 이론 수업은 여기까지가 마지막이고 이제 실습 문제만 남아있다.

 


 

 

 

학습을 마치고

무슨 말인지는 잘 모르겠지만 머신러닝을 할 때 필요한 단계를 설명하는 것 같았다. 그냥 이런 게 있구나 하며 가볍게 보고 넘어가는 것도 괜찮다. 그리고 나중에 더 깊게 공부해볼 때 이 부분이 생각날 수도 있고 그때 다시 한번 공부했던 것들을 떠들어보면서 정리해볼 수 있을 것이다.

이제 실습 문제를 풀어보며 3주차에 무엇을 배웠는지 정리해볼 것이다.