일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 영어공부
- 딥러닝
- 운영체제
- 정보처리기사실기
- 중학수학
- 데이터분석
- CNN
- 파이썬라이브러리
- 정수와유리수
- html/css
- 컴퓨터구조
- 파이썬
- 연습문제
- 머신러닝
- CSS
- 중학1-1
- 자바
- 컴퓨터비전
- 혼공머신
- 텍스트마이닝
- 데이터입출력구현
- SQL
- JSP/Servlet
- C++
- 정보처리기사필기
- pandas
- 데이터베이스
- numpy/pandas
- 코딩테스트
- 자바 실습
- Today
- Total
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
텍스트 마이닝 4 - 텍스트 마이닝 기초 실습 4 : 키위를 이용한 불용어 처리 본문
한 달 전에 수업했던 내용인데 이제 공부해보고 있다. 그때는 아직 필요성을 느끼지 못했기 때문이다. 웹 크롤링도 공부해야 하는데 언제 다 할까 싶다. 이것도 딥러닝처럼 한 이틀 시간을 내서 가능하면 9월 안에 공부를 마치는 것이 좋을 것 같다. 컴퓨터 비전 일주일 동안 공부한 후에 크롤링 학습을 진행하면 될 것 같다.
텍스트 마이닝 수업을 하는 중에 쁘띠 프로젝트라고 팀별로 작은 프로젝트를 하나 작업하고 발표하는 시간을 가졌었다. 하지만 난 선생님에 팀에 딱 한번 넣어준 후로(그것도 3주에 불과했지만) 이전에도 이후에도 팀이 언제나 없는데다 수업도 듣지 않아서 참여하지 않았다. 가끔은 선생님이 나를 너무 소외시키는 건 아닌가 하는 생각을 한다.
하지만 뭐든 좋은 점이 있으면 그렇지 않는 점도 존재한다. 오히려 난 자유롭게 내가 하고 싶은 작업과 공부를 이어갈 수 있는 장점이 있다. 팀 프로젝트 작업은 생략하고 선생님이 수업하셨던 부분만 수업을 듣고 정리해볼 생각이다.
텍스트 마이닝 기초 실습해보기
현재 별로 필요 없는 단어를 제거하는 작업을 말한다. 이 부분은 오렌지 프로그램을 다룰 때도 많이 사용했었다. 인터넷에 보면 한국어에서 자주 사용하는 불용어 목록이 있는데 이걸 추가해서 제거해도 된다.
이렇게 불용어를 처리해보았다.
Kiwi 활용하기
의미를 상실하지 않는 최소 단위로 쪼개는 것을 형태소 분석이라고 한다. 형태소 분석에서 품사도 붙일 수 있다.
기본 불용어를 가진 객체이다.
학습을 마치고
키위를 사용해서 불용어를 제거하고 의미없는 단어를 처리하는 실습을 진행해보았다. 전처리 작업에서 해야 할 게 참 많은 것 같다.
지금은 키위가 무엇인지 잘 모르겠지만 나중에 시간날 때 이 사이트와 API를 참고해보려고 첨부해보았다. 이어서 이모지를 제거하고 형태소를 분석하는 작업까지 진행해볼 것이다. 이제 오후 공부도 2시간이 조금 남지 않았다.
오후에는 집중력이 조금 떨어지기도 하고 빨리 수업이 끝났으면 하는 마음도 있다. 그래도 끝까지 열심히 공부해볼 것이다.
'인공지능 > 머신러닝' 카테고리의 다른 글
텍스트 마이닝 6 - 코랩으로 응용 실습해보기 1 : 데이터 로딩 및 형태소 분석 (1) | 2024.09.20 |
---|---|
텍스트 마이닝 5 - 텍스트 마이닝 기초 실습 5 : 이모지 제거 및 형태소 분석하기 (0) | 2024.09.19 |
텍스트 마이닝 3 - 텍스트 마이닝 기초 실습 3 : 정규 표현식을 이용한 전처리 작업 (0) | 2024.09.19 |
텍스트 마이닝 2 - 텍스트 마이닝 기초 실습 2 : 워드 클라우드 생성하기 (0) | 2024.09.19 |
텍스트 마이닝 1 - 텍스트 마이닝의 개념과 분석할 자료 가져오기(한국어 혐호 표현 데이터) (0) | 2024.09.19 |