텍스트 마이닝 8 - 텍스트 마이닝 응용 실습 1 : 토큰화 및 단어사전 구축하여 단어 빈도 측정하기

Notice

Recent Posts

Tags more

Archives

관리 메뉴

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

인공지능/머신러닝

huenuri 2024. 9. 20. 10:48

이제 지난 시간에 조금 진행하다 말았던 응용 실습을 주피터 노트북으로 진행해볼 것이다.

코랩으로 만들었던 파일을 로딩하며 지금까지 작업했던 내용을 출력해본다.

반복되는 표현들을 모두 제거해주었다.

중복되는 단어를 제거하여 확인한 후 단어사전을 구축한다.

가나다 순으로 번호를 부여한 것이다. 이제 25개의 구축된 단어사전을 가지고 컬럼으로 구축하게 된다. 첫번째 문장에서 이 단어가 등장했는지 횟수를 표시한다. 등장했으면 1, 등장하지 않았다면 0으로. 원핫 인코딩과 비슷하지만 단어의 등장 횟수가 증가하면 2가 된다.

위치 정보를 담지 않기 때문에 문맥을 파악에는 적합하지 않다.

패턴을 추출하기에 나름 가치가 있는 방법이 BOW이다.

이렇게 해서 텍스트 마이닝 셋째날 수업까지 모두 학습하고 정리해보았다. 뒤로 갈수록 텍스트 마이닝에 흥미가 떨어져 기록도 전보다 열심히 하지 않고 대충 이해했으면 넘어가고 있다.

데이터 분석과 머신러닝을 공부하고는 있지만 별로 재미는 없는 게 사실이다. 그냥 배우는 과정 중에 있으니까 하는 것이다. 또 언제 써먹게 될지 모르니 공부는 한번 해놓는 게 좋을 것 같다.

이제 다음 포스트에서는 넷째날 수업에 대해서 정리해볼 것이다.

텍스트 마이닝 10 - 텍스트 마이닝 응용 실습 3 : 파이프라인 구축하여 파라미터 세팅 및 데이터 평가하기 (0)	2024.09.20
텍스트 마이닝 9 - 텍스트 마이닝 응용 실습 2 : 데이터 수치화하여 모델 학습 및 평가하기 (0)	2024.09.20
텍스트 마이닝 7 - 코랩으로 응용 실습해보기 2 : 단어 토큰 분리 및 작업한 것 로컬 파일로 다운로드하기 (0)	2024.09.20
텍스트 마이닝 6 - 코랩으로 응용 실습해보기 1 : 데이터 로딩 및 형태소 분석 (1)	2024.09.20
텍스트 마이닝 5 - 텍스트 마이닝 기초 실습 5 : 이모지 제거 및 형태소 분석하기 (0)	2024.09.19

'인공지능/머신러닝' Related Articles