일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 파이썬
- 컴퓨터비전
- 중학1-1
- 정보처리기사필기
- 중학수학
- 컴퓨터구조
- 머신러닝
- ChatGPT
- JSP
- 혼공머신
- 정보처리기사실기
- CSS
- 연습문제
- html/css
- 상속
- 데이터베이스
- c언어
- 자바스크립트
- 자바스크립트심화
- 자바
- JDBC
- 딥러닝
- SQL
- 순환신경망
- 디버깅
- 자바 실습
- JSP/Servlet
- 개발일기
- 데이터분석
- rnn
- Today
- Total
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
텍스트 마이닝 3 - 텍스트 마이닝 기초 실습 3 : 정규 표현식을 이용한 전처리 작업 본문
점심을 먹고 2시 반이 조금 넘어서 다시 오후 공부를 시작해본다. 점심 시간에 공부를 좀더 하느라 늦게 출발을 한데다 점심 때 영어 공부를 식사하며 했더니 평소보다 인사교에 늦게 도착했다. 난 어딜가든 선생님들이 자유롭게 풀어주는 편이라 규율에 얽매이지 않아서 정말 감사하다.
이제 다시 오후 공부를 시작해볼 것이다. 혐오 표현 클라우드 실습을 진행해볼 차례이다.
한국어 혐오 표현 실습해보기 세번째
다른 분류를 보고 싶다면 이름만 바꾸어주면 된다.
먹다, 먹는다, 먹었다 등 모든 것이 먹는 행위이니 먹만 추출할 수 있다.
문장 부호와 같은 단어의 중복을 제거할 것이다. 손쉽게 할 수 있는 방법으로 정규 표현식을 사용해본다. 이것은 파이썬뿐 아니라 자바, 자바스크립트 등 많은 언어에서 지원하는 방식이다.
모듈 함수를 사용하는데 보통 search, split, sub 중에 하나를 사용한다.
앞의 글자가 최소 한 번 이상 들어갈 때 검출할 수 있는 패턴을 생성했다.
단어 거르기
한 글자 단어는 정보를 얻기가 어려워 제거하는 것이 좋다.
이렇게 한 글자 단어도 제거하는 작업을 진행했다.
학습을 마치고
점심을 먹고 나니 정말 졸렸지만 그래도 공부를 끝까지 마쳐보았다. 정규 표현식이라는 새로운 문법을 하나 배웠고 단어를 어떻게 전처리를 하여 추출하는지도 배울 수 있었다.
앞에 선생님이 소개해주신 사이트에 들어가보니 정규 표현식 외에도 유용한 정보들이 많아 나중에 시간이 날 때 한번 둘러보면 좋을 것 같았다. 깃 허브도 잘 이용하면 좋겠지만 난 아직 이곳에 자료를 올리는 것이 익숙하지 않고 사용법도 잘 모르는 편이다.
다음이 이 부분도 언제 공부를 할 예정이다. 두 달 전에 아주 조금 공부하다 말았지만 한달 쯤 후에 한번 공부해볼까 한다.
'인공지능 > 머신러닝' 카테고리의 다른 글
텍스트 마이닝 5 - 텍스트 마이닝 기초 실습 5 : 이모지 제거 및 형태소 분석하기 (0) | 2024.09.19 |
---|---|
텍스트 마이닝 4 - 텍스트 마이닝 기초 실습 4 : 키위를 이용한 불용어 처리 (0) | 2024.09.19 |
텍스트 마이닝 2 - 텍스트 마이닝 기초 실습 2 : 워드 클라우드 생성하기 (0) | 2024.09.19 |
텍스트 마이닝 1 - 텍스트 마이닝의 개념과 분석할 자료 가져오기(한국어 혐호 표현 데이터) (0) | 2024.09.19 |
머신러닝을 위한 데이터 이해하기 4 - 도메인 지식을 늘려 데이터 준비하기 (0) | 2024.09.19 |