클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 7 - 코랩으로 응용 실습해보기 2 : 단어 토큰 분리 및 작업한 것 로컬 파일로 다운로드하기 본문

인공지능/머신러닝

텍스트 마이닝 7 - 코랩으로 응용 실습해보기 2 : 단어 토큰 분리 및 작업한 것 로컬 파일로 다운로드하기

huenuri 2024. 9. 20. 10:06

오늘 새벽 공부 시간에 1시간 정도 텍스트 마이닝 공부를 했었다. 이제 아침 공부 시간에 이어서 진행해볼 것이다.  오늘 아침 11시까지 텍스트 마이닝 셋째날 수업을 모두 학습하고 정리한 후에 나머지 2시간은 넷째날 수업 2/3이상을 학습 정리해볼 것이다.

그런 다음에 오후에 넷째날 수업과 마지막날 수업 절반 이상을 완료하고, 저녁 공부 시간에는 정처기 실기공부를 해볼 것이다. 5섹션 이상까지는 학습을 마쳐야지. 그리고 내일 새벽까지 머신러닝 공부를 모두 마치는 것이 목표이다. 그럼 오늘의 공부를 시작해보자!


 

 

 

코랩으로 텍스트 마이닝 응용 실습해보기

 

테스트 데이터도 이모지 제거 후 매캅으로 형태소 분석기를 돌렸다. 전체 1만 5천개의 리스트가 있고, 리스트 안에는 한 문장을 형태소 단위로 쪼갠 것들이 들어 있다. 2차원으로 되어 있기에 이 부분을 수정해줄 것이다.

 

 

훈련용과 테스트용 모두 돌려서 추출해보고 있다. 그리고 잘 출력이 되었는지 확인하는데 이 내용을 모두 담지 않고 임시 리스트를 만든 후 전체 리스트에 추가해주었다.

 

 

 

 

전처리된 데이터들을 이제 파일로 만들어서 로컬 환경으로 가지고 오겠다.


 

 

 

 

파일에 생긴 이 데이터 2개를 다운 받으면 된다. 그리고 지금까지 코랩으로 만들었던 파일도 다운로드해서 원래 공부하던 파일에 붙여넣었다.

 


 

 

학습을 마치고

어제부터 이틀동안 코랩으로 실습을 해보았는데 정말 어려웠다. 사실 오늘 새벽 공부 시간에도 잘 안되는 부분이 있어 힘들었는데 그래도 지금까지 공부하면서 막히는 부분은 없었던 것 같다. 모르는 걸 선생님에게 물어보지도 않고 혼자서 공부하는데도 말이다. 어떤 문제가 생기면 어떻게서든지 반드시 해결하기 때문이다.

해결되지 못하는 문제는 없었고 문제는 원래 풀라고 있는 것이다. 오히려 혼자서 공부하면서 더 많은 것들을 배우게 되는 것 같다. 이제 로컬에서 주피터 노트북으로 머신러닝 작업을 이어갈 것이다.

 

난 주피터 노트북으로 작성하는 것이 훨씬 더 편한 것 같다. 그래도 코랩은 저장을 안해도 사용할 수 있는 점은 편리했다.