클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

Orange 6 - 레드 와인과 화이트 와인을 분류하는 실습 2 : 전처리를 했을 때와 하지 않았을 때의 차이 본문

인공지능/머신러닝

Orange 6 - 레드 와인과 화이트 와인을 분류하는 실습 2 : 전처리를 했을 때와 하지 않았을 때의 차이

huenuri 2024. 9. 13. 22:37

집에 와서 이어서 8교시때 마무리하지 못한 와인 실습을 진행해보려고 한다. 여기까지 모두 학습을 마치고 저녁 운동을 하러 가야겠다.
집에 도착하자마자 바로 운동을 하면 좋은데 오자마자 공부를 먼저 해야 저녁에도 공부하는 것을 더 쉽게 할 수 있게 된다. 이것이 지난 한 달 동안의 나의 루틴이다. 정말 하기 싫은 날도 집에 오자마자 공부부터 하면 머리도 마음도 한결 가벼워진다.
 
이제 나머지 공부를 시작해보자!


 
 
 

와인 분류 실습 두번째 - 전처리를 했을 때

 
train 데이터와 test 데이터를 각기 연결해준다.
 
 

중요한 점은 앞부분은 데이터를 가져와야 하니 Data Sample에서 오지만, 뒷 부분은 예측을 해야 하니 Remaining Data에 넣어주어야 한다는 것이다.
 

 
데이터의 70%가 잘 들어가있음을 확인해볼 수 있다. 이제 train 데이터에서도 예측을 할 수 있도록 수정해보자. 이 표가 나오지 않고 아무것도 나타나지 않아서 정말 한참의 시간을 고민하며 그냥 오렌지 공부를 포기해야 하는지 생각했다. 이것뿐 아니라 다른 파일도 모두 결과값이 하나도 나오지 않았기 때문이다.
처음부터 다시 강의를 들으며 파일을 새로 만들었고.. 드디어 해결했다.
 
예측이 하나만 있는 것보다 둘 이상이면 신뢰도가 높이게 test data로도 예측을 한번 더 해볼 것이다.
 
 

 

 
그런 다음에 Confusion Matrix를 하나 가져온다. 실제 데이터와 예측 데이터를 얼마나 잘 예측했는지 보여주는 표이다. 정확도는 전체 중에서 a + d를 더한 값이다.
 

 

 
 


 
 
 

와인 분류 실습 - 전처리를 하지 않았을 때

 

 

 
좋은 데이터를 가져와서 별 차이가 없지만 성능이 조금 떨어진 것을 볼 수 있다. 조금 전에 knn 모델을 가져오는데 오류가 나서 같은 파일에 만들어보았다. 이상하게도 다른 파일에다 만들면 knn 모델이 연결되지 않는다.
 


 

학습을 마치고

금방 끝날줄 알았던 학습 정리가 정말 오랜 시간 걸려 끝났다. 아마 내일까지 더 공부해야 할 것 같다. 그리고 엘리스로 머신러닝 공부를 하면서 추석 연휴에 이 공부를 이어가려고 한다. 
한 가지 실습만 더 해보고 오늘의 학습을 마무리해볼 것이다.