관리 메뉴

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 10 - 텍스트 마이닝 응용 실습 3 : 파이프라인 구축하여 파라미터 세팅 및 데이터 평가하기 본문

인공지능/머신러닝

텍스트 마이닝 10 - 텍스트 마이닝 응용 실습 3 : 파이프라인 구축하여 파라미터 세팅 및 데이터 평가하기

huenuri 2024. 9. 20. 12:44

텍스트 마이닝 넷째날 마지막 교시 수업을 듣고 강의 내용을 정리해볼 것이다. 오늘 아침까지 이 수업까지 정리를 마쳤으면 했는데 목표를 대부분 달성할 수 있을 것 같다.

요즘은 내가 세운 목표를 이루지 못하는 날이 별로 없었다. 내가 마음만 먹으면 무엇이든지 할 수 있는 사람임을 스스로 체험한 시간들이었다.


 

 

 

텍스트 마이닝 응용 실습해보기

파이프라인을 구축해서 한번에 튜닝을 할 수 있도록 작업을 진행한다. 규제를 판단할 때 테스트 데이터 하나보다는 여러 개를 하는 것이 안정적이다.

 

grid_prams는 모든 경우의 수를 다 돌려보는 것 이다. 252 조합을 확인한 후 이 중에 어떤 조합이 가장 괜찮은지 알려준다.  파이프라인으로 묶어주었기 때문에 오리지널 text 데이터를 넣어야 한다. 그리고 파이프라인을 돌리는 게 이게 시간이 정말 많이 걸린다.

 

 

 

드디어 다 돌아갔다. 컴퓨터가 열심히 돌아가며 어떤 조합이 가장 좋은지 분석했다.

 

 

저장이 되어 이제 해당 폴더에 들어가면 이 파일을 다운로드할 수 있다.


 

 

 

데이터 활용 평가하기

 

5번 인덱스가 대체로 높은데, 지역 혐오에 대해서는 잘 판별하고 있음을 알 수 있다. 4번 인덱스의 recall이 낮은 이유는 연령 혐오에 대한 기준치가 높을 가능성이 크다. 실제로 연령 혐오이지만 높게 학습되어 있어 받아들이지 않는 것이다. 나중에 임계치를 낮출 수 있다.

정밀도가 낮다는 것은 모델이 9번이라고 말했을 때 정확도가 떨어지는 것이다. 실제는 많이 맞춘 것을 보면 기준이 많이 낮다는 것이다. 앞의 경우와 반대라고 할 수 있다.


 

 

학습을 마치고

넷째날 마지막 교시 수업 정리도 모두 마쳤다. 이제 오후에는 마지막날 텍스트 마이닝 수업을 모두 정리하고 시간이 남으면 엘리스 머신러닝 4주차 학습을 진행하려고 한다. 그리고 내일이 아니라 오늘 저녁까지 머신러닝 공부를 다 마칠 수 있을 것 같다.

데이터 분석 4일에 이어 머신러닝 공부 8일까지 정말 쉴새없이 달려왔다. 가장 지루하고 어렵다고 생각했던 부분을 거의 마쳤다니 믿어지지가 않을 정도이다. 오늘은 점심을 10분 정도 일찍 먹으러 갈 생각이다. 항상 10분 늦게 출발하니 2시 정각에 도착하는 일이 별로 없었다.

 

점심시간에는 어제처럼 영어 공부를 하고 와야지! 그리고 시간이 남으면 오늘 새벽에 풀다 말았던 수학문제를 풀어볼 생각이다.