클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

허깅페이스 1 - 구글 코랩으로 허깅페이스 모델 사용해보는 실습해보기 본문

인공지능/머신러닝

허깅페이스 1 - 구글 코랩으로 허깅페이스 모델 사용해보는 실습해보기

huenuri 2024. 9. 14. 19:14

주피터 노트북 대신 코랩이라는 인터넷 환경에서 사용해보려고 한다. 딥러닝은 GPU 자원이 좋아야 빠르고 정확하게 돌아간다. 코랩은 클라우드 상에 띄어져있는 주피터 노트북을 사용해 훨씬 더 높은 자원을 사용할 수 있도록 한다. 용량이 많아지면 스토리지나 좋은 GPU 자원을 사용하기 위해 추가금을 내야 한다. 또 인터넷이 안 되면 사용할 수 없는 단점도 있다.
하지만 단점보다는 장점이 많은 서비스이므로 한번 사용해보기로 하자.


 
 

1. 구글 코랩 사용하기

 

 
코랩은 노트북 환경에서 한번 사용한 적이 있어서 그런지 그때 사용했던 기록이 모두 남아있었다. 웹은 보통 리눅스 기반으로 되어 있는데, 코랩의 장점은 모델링할 때 환경구축하는 시간을 단축시켜준다는 것이다.
 
구글 드라이브에 들어가면 코랩 노트북이라는 폴더가 있는데, 여기 들어가서 새폴더를 만들고 노트북을 하나 만들면 된다. 주피터 노트북이 설치되어 있지 않은 환경에서 프로그램을 작성할 때, 코랩을 사용해 편리하게 이용할 수 있다.
 

 
회사에서 선호하는 자격증 1위는 정보처리기사인데, 그 다음이 리눅스 마스터나 SQL 자격증이다.


 
 

2. 허깅페이스 사용하기

이곳에서 모델을 가져오려고 한다. 깃허브는 코드를 공유하는 사이트인데, 허깅페이스는 비슷하지만 인공지능에 특화된 사이트이다. 인공지능 모델이 굉장히 많이 올라와있는 곳으로 이곳에서 자신이 만든 모델을 홍보하기도 한다.
허깅페이스에서 우리는 사전 학습된 모델을 사용할 수 있는 것이다. 그렇기에 많은 데이터를 사용할 필요가 없고 이미 검증이 된 것들이다.
 

 
모델에 들어가면 다양한 Tasks들이 존재한다.
 
 

 

 
객체 탐지나 이미지를 바꾸어주는 작업 등 여러 모델들에 사용할 수 있는 다양한 모델들이 존재한다.
 


 
 
 

3. 코랩으로  텍스트 감성분석하기

 

 
안에 들어있는 작은 기능을 사용할 때는 from이라는 키워드를 쓴다. 예를들어 계산기의 모든 기능 중에서 더하기만 사용하고 싶을 때 사용한다. 자주 사용하는 pipeline만 from으로 불러왔다.
 
 
 

 
모델을 가져온 다음에는 이렇게 이름을 지정해준다. 가장 기본적인 감성분석 모델을 가져와서 사용해볼 것이다.
 

 
리스트 안에 여러 개의 데이터를 넣을 수 있다. 이 두개의 문장에 대해 긍정인지 부정인지 출력을 해준다. 분류에서 모델 평가 지표로 잘 사용되는 것은 정확도, accuracy라고 한다. 중요하므로 꼭 기억해두자.
 

 


 
 
 
 

4. 허깅페이스에서 모델 직접 가져와서 사용하기

허깅페이스의 NLP에서 FacebookAI라는 모델을 가져와서 사용해보겠다.

 
여기에는 좋아요는 많이 받은 순으로 정렬되어 있다. 이 모델을 클릭한 후 들어가본다.
 
 

 
 
 

 
이 모델을 그대로 가져다가 사용해볼 것이다. 파이프라인을 쓰고 문자열에 방금 전에 복사한 모델 이름을 붙여넣으면 된다.


 
 

 
 

 
예측할 단어를 mask로 넣어주면 된다. 여기서는 go가 어울린다고 36% 정도 예측하고 있다.
 
 
 
 

 
어디에 가고 싶은지 예측해보니 대학에 가고 싶다는 분석이 가장 많이 나오고 있다.
 
 


 

학습을 마치고

 
오늘 아침에 마지막 부분을 다 마치지 못해서 오랜만에 집에 내려와서 내 방에서 공부를 하는 중이다. 본가에 오니 집은 넓어서 좋지만, 모니터가 없어서 그런 부분은 아쉬웠다.
다음 포스트에서는 번역을 하고 텍스트 분석에 대한 또 다른 실습을 진행해보려고 한다. 벌써 저녁식사할 시간이 되어 나머지 부분은 저녁에 해야 할 것 같다. 이 수업을 통해 허깅페이스도 별로 어렵지 않게 느껴졌고 구글 코랩도 사용해볼 수 있게 되어 기뻤다.