관리 메뉴

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

Orange 5 - 레드 와인과 화이트 와인을 분류하는 실습 1 : 분류에 영향을 미치는 요인 본문

인공지능/머신러닝

Orange 5 - 레드 와인과 화이트 와인을 분류하는 실습 1 : 분류에 영향을 미치는 요인

huenuri 2024. 9. 13. 17:54

BMI 실습이 끝나고 두번째로 와인을 분류하는 실습을 진행해볼 것이다. 오늘 하루가 언제 지나가나 싶었는데 이제 마지막 교시가 50분도 남지 않았다. 아마 다 정리하지는 못하고 집에 가서 이어서 해야 할 것 같다.

오늘 아침에는 정말 공부하기가 싫어서 이 마음과 싸우는데 많은 시간을 보냈다. 어떤 과목이든 그 수업에 매력을 느끼게 되기까지 적어도 몇 시간의 시간은 걸리는 편이다. 이렇게 마음과 싸우고 고분고투하는 동안 그 과목과 많이 친해지게 된다. 따라서 이 시간은 결코 아까운 시간이 아니다.

 

오늘 목표했던대로 하루만에 Orange를 모두 다 학습하는 건 정말 무리였다. 하지만 내일 새벽까지 해서 왠지 다 할 수 있을 것 같다는 생각이 든다.

그리고 내일부터 시작될 추석 명절이 정말 기대된다. 명절에도 난 하루에 8시간 이상은 공부를 할 생각이다. 이제 공부는 내게 숨을 쉬는 것처럼 매우 자연스러운 일상이 되었다. 


 

 

와인 분류 실습해보기

 

레드 와인과 화이트 와인 데이터를 가져온 후에 그것을 Concat 데이터에 담는다. 이것은 병합하다는 뜻이다. 두 개의 와인을 통해 뭔가 분류 작업을 하는 실습이다.

 

 

그리고 병합할 때 Feature name과 Place도 다음과 같이 변경해준다.

 

 

 

그리고 데이터 테이블을 연결해서 잘 들어갔는지 확인해본다. 데이터에 들어가보면 이러한 속성들을 확인해볼 수 있다.

 

 

 

 

 

여기에 나온 모든 정보가 필요한 것이 아니고 영향을 미치는 요소에만 분석을 적용하게 될 것이다. 그런 다음 도수분포를 통해 데이터를 시각화해서 나타내보자.

 

 

 

처음에는 막대 그래프로 나타나는데 이 데이터 타입을 normal로 바꾸면 곡선 형태로 그려진다. bar는 숨겨준다.

 

 

그리고 레드 와인과 화이트 와인만의 특성을 나타내는 속성을 표시해주면 각각의 그래프가 달라진다. 예를 들면 휘발성 산도가 높으면 레드 와인임을 예측할 수 있다.

 

 

 

 

 

총 이산화황과 휘발성 산도를 산점도로 나타낸 그래프이다. 이 두 개의 데이터를 사용하면 분리가 되는 것을 볼 수 있다. 이들은 모두 클래스로 되어 있다.

 

 

 

 

너무 많은 데이터로 어떤 조합이 잘 분류가 되는지 잘 모르니 이것을 쉽게 해줄 수 있는 방법이 있다. 왼쪽 상단에 Find Informative Projections를 클릭하면 이를 찾아준다. 순위별로 보여주고 있다.

 

 

 

다음으로 전처리 과정도 진행하는데 Normalize Features를 0과 1의 값으로 변환하는 작업도 진행한다.

 

 

 

 

 

순위에 영향을 미치는 요소에 대해서도 연결해준다.

 

랭크의 개수도 설정할 수 있다. Information Gain은 내가 정보를 얼마나 획득할 수 있는지이다. 그리고 ReliefF 순으로 정렬해주었다. 이 데이터가 영향을 더 많이 받기 때문이다. 이것은 정답 데이터에 영향을 미치는 요소이다.

우선순위가 있는 요소만을 선택하는 이유는 속도가 빨라 오차를 줄일 수 있는 장점이 있기 때문이다.

 

 

정답 데이터를 찾는 과정은 이러한 과정이 반복된다.

 

차원이 많아질수록 거리를 구하는 공식이 달라진다. 이때 유클리디언 공식을 사용해서 거리를 구한다. 전처리 과정 중에서 스케일링을 진행하는 이유는 KNN 모델을 사용하기 위해서이다. KNN에서 거리를 구할 때 이 공식을 사용하며, 스케일링은 KNN뿐 아니라 선형모델에서도 사용한다.

 


 

 

 

학습을 마치고

와인 분류 실습은 분량이 좀 많아서 여기까지 우선 정리해본다. 나머지 내용은 집에 가서 해볼 것이다. 오늘 많이 위기 사항이 있었지만 끝까지 포기하지 않고 인내하며 다시 공부의 자리에 나아올 수 있어서 정말 감사했다.

아침에는 정말 어렵게 느껴졌던 오렌지가 이제는 조금 익숙해지고 나름 괜찮아졌다.