관리 메뉴

클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

트리 알고리즘 8 - 교차 검증과 그리드 서치 심화 학습 본문

인공지능/머신러닝

트리 알고리즘 8 - 교차 검증과 그리드 서치 심화 학습

huenuri 2024. 10. 2. 15:34

내용을 이해하고 학습을 한다는 게 정말 신나는 일인 것 같다. 점심시간이 되었지만 난 별로 밥을 먹고 싶은 생각이 없이 공부를 더 하고 싶다.

조금만 더 하고 식사를 해야지!


 

 

 

 

교차 검증과 그리드 서치 실습해보기

 

 

검증 세트는 테스트 세트를 사용하지 않고 이를 측정하는 훈련 세트를 또 나누는 것을 말한다. 앞에서 우리는 전체 데이터 중 20%를 테스트 세트로 만들고 나머지 80%를 훈련 세트로 만들었다. 이 훈련 세트 중에서 다시 20%를 떼어 내어 검증 세트로 만든다.

 

먼저 판다스로 CSV 데이터를 읽는다. 그다음 class 열을 타깃으로 사용하고 나머지 열은 특성 배열에 저장한다. 이제 훈련 세트와 테스트 세트를 나누는데, 훈련 세트의 입력 테이터와 타깃 데이터를 train_input과 train_target에 저장한다.

그다음 이들을 train_test_split() 함수에 넣어 훈련 세트(sub)와 검증 세트(val)를 만든다.

훈련 세트와 검증 세트의 크기를 확인해 보면 원래 5197개였던 훈련 세트가 4157개로 줄어들고, 검증 세트는 1040개가 되었다. 모델을 평가해 보면 확실히 훈련 세트에 과대적합되었음을 알 수 있다.


 

 

 

 모델을 평가해 보면 확실히 훈련 세트에 과대적합되었음을 알 수 있다.


 

 

 

 

교차 검증은 검증 세트를 떼어 내어 평가하는 과정을 여러 번 반복한다. 그다음 이 점수를 평균하여 최종 검증 점수를 얻는다. 3-폴드 교차 검증은 훈련 세트를 세 부분으로 나눠서 교차 검증을 수행하는 것을 말한다. 

보통 5-폴드 교차 검증이나 10-폴드 교차 검증을 많이 사용한다. 이렇게 하면 데이터의 80~90%까지 훈련에 사용할 수 있다. 검증 세트가 줄어들지만 각 폴드에서 계산한 검증 점수를 평균하기 때문에 안정된 점수로 생각할 수 있다.

 

먼저 평가할 모델 객체를 첫 번째 매개변수로 전달한다. 그다음 앞에서 직접 검증 세트를 떼어내지 않고 훈련 세트 전체를 cross_validate() 함수에 전달한다. 이 함수는 fit_time, score_time, test_score 키를 가진 딕셔너리를 반환한다. 처음 2개의 키는 각각 모델을 훈련하는 시간과 검증하는 시간을 의미한다. 각 키마다 5개의 숫자가 담겨있다. cross_validate() 함수는 기본적으로 5-폴드 교차 검증을 수행한다.

교차 검증의 최종 점수는 test_score 키에 담긴 5개의 점수를 평균하여 얻을 수 있다. 이름은 test_score지만 검증 폴드의 점수이다. 

 

교차 검증을 수행하면 입력한 모델에서 얻을 수 있는 최상의 점수를 가늠해 볼 수 있다. 한 가지 주의할 점은 cross_validate()는 훈련 세트를 섞어 폴드를 나누지 않는다. 만약 교차 검증을 할 때 훈련 세트를 섞으면 분할기를 지정해야 한다. 사이킷런의 분할기는 교차 검증에서 폴드를 어떻게 나눌지 결정해 준다. 


 

 

 

훈련 세트를 섞은 후 10-폴드 교차 검증을 수행해 보았다. cross_validate() 함수는 기본적으로 회귀모델일 경우 KFold 분할기를 사용하고 분류 모델일 경우 타깃 클래스를 골고루 나누기 위해 StratifiedKFold를 사용한다. 

이어서 결정 트리의 매개변수 값을 바꿔가며 가장 좋은 성능이 나오는 모델을 찾아보겠다.


 

 

 

 

하이퍼파라미터를 튜닝하는 작업은 다음과 같이 진행된다. 먼저 라이브러리가 제공하는 기본값을 그대로 사용해 모델을 훈련한다. 그다음 검증 세트의 점수나 교차 검증을 통해서 매개변수를 조금씩 바꿔본다. 모델마다 적게는 1~2개에서 많게는 5~6개의 매개변수를 제공한다. 이 매개변수를 바꿔가면서 모델을 훈련하고 교차 검증을 수행한다.

여기서 중요한 점이 있다. 가령 결정 트리 모델에서 최적의 max_depth 값을 찾았다고 가정해 보자. 그다음 max_depth를 최적의 값으로 고정하고 min_sample_split을 바꿔가며 최적의 값을 찾는다. 

 

max_depth의 최적값은 min_sample_split 매개변수의 값이 바뀌면 함께 달라진다. 즉 이 두 매개변수를 동시에 바꿔가며 최적의 값을 찾아야 한다. 사용방법은 다음과 같다. 먼저 GridSearchCV 클래스를 임포트하고 탐색할 매개변수와 탐색할 값의 리스트를 딕셔너리로 만든다.

 

GridSearchCV의 cv 매개변수 기본값은 5이다. 따라서 min_imurity_decrese 값마다 5-폴드 교차 검증을 수행한다. 결국 5 x 5 = 25개의 모델을 훈련한다. 많은 모델을 훈련하기 때문에 GridSearchCV 클래스의 n_jobs 매개변수에서 병렬 실행에 사용할 CPU 코어 수를 지정하는 것이 좋다. 

사이킷런의 그리드 서치는 훈련이 끝나면 25개의 모델 중에서 검증 점수가 가장 높은 모델의 매개변수 조합으로 전체 훈련 세트에서 자동으로 다시 모델을 훈련한다. 이 모델은 gs 객체의 best_estimator_ 속성에 저장되어 있다.


 

 

 

 

여기서는 0.0001이 가장 좋은 값으로 선택되었다. 5번 교차검증으로 얻은 점수를 출력해 보았다. 수동으로 고르는 것보다 넘파이 argmax() 함수를 사용하면 가장 큰 값의 인덱스를 추출할 수 있다. 그다음 이 인덱스를 사용해 params 키에 저장된 매개변수를 출력할 수 있다. 이 값이 최상의 검증 점수를 만든 매개변수 조합이다. 앞에서 출력한 gs.best_prams_와 동일한지 확인해 보자. 완전히 같다.

 

 

이번에는 조금 더 복잡한 매개변수 조합을 탐색해보려고 한다. 결정 트리에서 min_impurity_decrease로 노드를 분할하기 위한 불순도 감소 최소량을 지정한다. 여기에다가 max_depth로 트리의 깊이를 제한하고 min_samples_split으로 노드를 나누기 위한 최소 샘플 수도 골라보겠다.

이 부분은 지난번에는 무슨 말인지 도저히 알지 못해서 그냥 넘어갔던 부분이었다. 근데 오늘은 충분히 이해할 수 있을 것 같은 예감이 든다.


 

 

 

 

넘파이 arrange() 함수(①)는 첫 번째 매개변수 값에서 시작하여 두 번째 매개변수에 도달할 때까지 세번째 매개변수를 계속 더한 배열을 만든다. 코드에서는 0.0001에서 시작하여 0.001이 될 때까지 0.0001을 계속 더한 배열이다. 두번째 매개변수는 포함되지 않으므로 배열의 원소는 총 9개이다.

range() 함수(②)도 비슷하다. 하지만 이 함수는 정수만 사용할 수 있다. 이 경우 max_dapth를 5에서 20까지 1씩 증가하면서 15개의 값을 만든다. min_samples_split은 2에서 100까지 10씩 증가하면서 10개의 값을 만든다.

 

따라서 이 매개변수로 수행할 교차 검증 횟수는 9 x 15 x 10 = 1350개이다. 기본 5-폴드 교차 검증을 수행하므로 만들어지는 모델의 수는 6750개나 된다. 

이제 n_jobs 매개변수를 -1로 설정하고 그리드 서치를 실행해 보겠다.


 

 

 

 

최상의 매개변수 조합과 교차 검증 점수를 확인해 보았다. GridSearchCV 클래스를 사용하니 매개변수를 일일이 바꿔가며 교차 검증을 수행하지 않고 원하는 매개변수 값을 나열하면 자동으로 교차 검증을 수행할 수 있다.

하지만 아직 조금 아쉬운 점이 있다. 앞에서 탐색할 매개변수의 간격을 0.0001 혹은 1로 설정했다. 이보다 더 좁거나 넓은 간격으로 시도해 볼 수 있지 않을까?


 

 

 

 

랜덤 서치에는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링할 수 있는 확률 분포 객체를 전달한다. 먼저 싸이파이의 stats 서프 패키지에 있는 uniform과 randint 클래스는 주어진 범위에서 고르도록 값을 뽑는다. 이를 '균등 분포에서 샘플링한다'라고 말한다. randint는 정수값을 뽑고, uniform은 실수값을 뽑는다.

0~10 사이의 숫자 10개를 샘플링했다. 숫자가 고르게 샘플링되지 않은 것 같아 1000개로 늘리니 어느 정도 고르게 추출이 되었다. 

 

샘플링 횟수는 시스템 자원이 허락하는 범위 내에서 최대한 크게 하는 것이 좋다. 그럼 탐색할 매개변수의 딕서너리를 만들어보겠다. 여기서는 min_samles_leaf 매개변수를 탐색 대상에 추가하겠다. 이 매개변수는 리프 노드가 되기 위한 최소 샘플의 개수이다. 어떤 노드가 분할하여 만들어질 자식 노드의 샘플 수가 이 값보다 작을 경우 분할하지 않는다.

탐색할 매개변수 범위는 다음과 같다.

 

 

샘플링 횟수를 사이킷런의 랜덤 서치 클래스인 RandomizedSearchCV의 n_iter 매개변수에 저장한다.


 

 

 

params에 정의된 매개변수 범위에서 총 100번(n_iter 매개변수)을 샘플링하여 교차 검증을 수행하고 최적의 매개변수 조합을 찾는다. 앞서 그리드 서치보다 훨씬 교차 검증 수를 줄이면서 넓은 영역을 효과적으로 탐색할 수 있다. 

 

테스트 세트 점수는 검증 세트에 대한 점수보다 조금 낮은 것이 일반적이다. 


 

 

 

 

확인 문제 풀기

 

 

 

 

 

결정 트리의 노드를 랜덤하게 분할하기 때문에 100번의 반복에서 최적의 매개변수 조합을 찾지 못한다. 평균 검증 점수와 테스트 세트의 점수가 조금 낮다.

 


 

 

 

학습을 마치고

드디어 길고 긴 시간 동안 이 단원 학습을 마쳤다. 사실 지난번에 공부할 때는 너무 어렵고 하기도 싫고 해서 뒷부분은 대충 마무리하고 말았다. 오늘 그 부분을 차근차근 학습을 하느라 다른 단원에 비해 시간이 훨씬 더 많이 걸렸다. 그래도 정말 뿌듯하고 기뻤다.

오늘 비지도 학습까지 머신러닝 단원을 모두 마치려고 했는데 그건 좀 어려울 것 같다. 저녁에는 정처기 실기 공부도 해야 하니까. 오늘은 수학 공부도 하지 못했다. 30분이라도 문제를 풀 시간을 내야겠다. 수학은 하루라도 공부하지 않으면 습관화하기가 힘든 것 중 하나이다.

 

다음 포스트에서 트리 앙상블에 대해 공부해 볼 것이다. 이 단원도 무척 어려울 것 같다.