Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- SQL
- 혼공머신
- 순환신경망
- 딥러닝
- 컴퓨터비전
- html/css
- 디버깅
- c언어
- 중학수학
- 자바
- JSP/Servlet
- 정보처리기사실기
- ChatGPT
- 컴퓨터구조
- 데이터분석
- CSS
- 개발일기
- 정보처리기사필기
- 머신러닝
- 상속
- rnn
- 연습문제
- JDBC
- 자바 실습
- 자바스크립트심화
- 데이터베이스
- JSP
- 자바스크립트
- 파이썬
- 중학1-1
Archives
- Today
- Total
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
텍스트 마이닝 8 - 텍스트 마이닝 응용 실습 1 : 토큰화 및 단어사전 구축하여 단어 빈도 측정하기 본문
이제 지난 시간에 조금 진행하다 말았던 응용 실습을 주피터 노트북으로 진행해볼 것이다.
텍스트마이닝 응용 실습해보기
코랩으로 만들었던 파일을 로딩하며 지금까지 작업했던 내용을 출력해본다.
반복되는 표현들을 모두 제거해주었다.
중복되는 단어를 제거하여 확인한 후 단어사전을 구축한다.
가나다 순으로 번호를 부여한 것이다. 이제 25개의 구축된 단어사전을 가지고 컬럼으로 구축하게 된다. 첫번째 문장에서 이 단어가 등장했는지 횟수를 표시한다. 등장했으면 1, 등장하지 않았다면 0으로. 원핫 인코딩과 비슷하지만 단어의 등장 횟수가 증가하면 2가 된다.
위치 정보를 담지 않기 때문에 문맥을 파악에는 적합하지 않다.
패턴을 추출하기에 나름 가치가 있는 방법이 BOW이다.
학습을 마치고
이렇게 해서 텍스트 마이닝 셋째날 수업까지 모두 학습하고 정리해보았다. 뒤로 갈수록 텍스트 마이닝에 흥미가 떨어져 기록도 전보다 열심히 하지 않고 대충 이해했으면 넘어가고 있다.
데이터 분석과 머신러닝을 공부하고는 있지만 별로 재미는 없는 게 사실이다. 그냥 배우는 과정 중에 있으니까 하는 것이다. 또 언제 써먹게 될지 모르니 공부는 한번 해놓는 게 좋을 것 같다.
이제 다음 포스트에서는 넷째날 수업에 대해서 정리해볼 것이다.
'인공지능 > 머신러닝' 카테고리의 다른 글
텍스트 마이닝 10 - 텍스트 마이닝 응용 실습 3 : 파이프라인 구축하여 파라미터 세팅 및 데이터 평가하기 (0) | 2024.09.20 |
---|---|
텍스트 마이닝 9 - 텍스트 마이닝 응용 실습 2 : 데이터 수치화하여 모델 학습 및 평가하기 (0) | 2024.09.20 |
텍스트 마이닝 7 - 코랩으로 응용 실습해보기 2 : 단어 토큰 분리 및 작업한 것 로컬 파일로 다운로드하기 (0) | 2024.09.20 |
텍스트 마이닝 6 - 코랩으로 응용 실습해보기 1 : 데이터 로딩 및 형태소 분석 (1) | 2024.09.20 |
텍스트 마이닝 5 - 텍스트 마이닝 기초 실습 5 : 이모지 제거 및 형태소 분석하기 (0) | 2024.09.19 |