본문 바로가기
멋쟁이사자처럼 AIS7/오늘코드

[1215] RNN

by YeonGun M 2022. 12. 15.

텍스트 데이터 벡터화 하는 방법?

  • 토큰화(str.split()) => one-hot-encoding => bag of words(min_df, max_df, analyzer, stopwords, n-gram)
  • => TF-IDF(너무 자주 등장하는 단어는 낮은 가중치, 특정 문서에만 자주 등장하는 단어는 높은 가중치)
  • RNN 은 순서가 있는 데이터를 예측할 때 주로 사용하는데 BOW 순서를 보존하지 않습니다. 그래서 시퀀스 방식의 인코딩을 사용했습니다.
  • Embedding => 여러 각도에서 단어와 단어 사이의 거리를 봅니다. 가까운 거리에 있는 단어는 유사한 단어이고 거리가 멀 수록 의미가 먼 단어 입니다.
  • => 의미를 좀 더 보존할 수 있게 되었습니다.

 

텍스트 데이터 전처리 방법?

  • 정규표현식 => 텍스트 정규화
  • 불용어 => 나, 너, 그것, 이것, 저것 처럼 자주 등장하지만 큰 의미를 갖지 않는 단어 제외
  • 형태소 분석 => 의미가 없는 조사, 어미, 구두점 등을 제외
  • 어간추출(stemming 원형을 보존하지 않음), 표제어표기법(lemmatization, 원형을 보존)

댓글