본문 바로가기

멋쟁이사자처럼 AIS7/오늘코드

[1215] RNN

by YeonGun M 2022. 12. 15.

텍스트 데이터 벡터화 하는 방법?

토큰화(str.split()) => one-hot-encoding => bag of words(min_df, max_df, analyzer, stopwords, n-gram)
=> TF-IDF(너무 자주 등장하는 단어는 낮은 가중치, 특정 문서에만 자주 등장하는 단어는 높은 가중치)
RNN 은 순서가 있는 데이터를 예측할 때 주로 사용하는데 BOW 순서를 보존하지 않습니다. 그래서 시퀀스 방식의 인코딩을 사용했습니다.
Embedding => 여러 각도에서 단어와 단어 사이의 거리를 봅니다. 가까운 거리에 있는 단어는 유사한 단어이고 거리가 멀 수록 의미가 먼 단어 입니다.
=> 의미를 좀 더 보존할 수 있게 되었습니다.

텍스트 데이터 전처리 방법?

정규표현식 => 텍스트 정규화
불용어 => 나, 너, 그것, 이것, 저것 처럼 자주 등장하지만 큰 의미를 갖지 않는 단어 제외
형태소 분석 => 의미가 없는 조사, 어미, 구두점 등을 제외
어간추출(stemming 원형을 보존하지 않음), 표제어표기법(lemmatization, 원형을 보존)

'멋쟁이사자처럼 AIS7 > 오늘코드' 카테고리의 다른 글

[1219] 시계열 데이터와 비즈니스 데이터 분석 (0)	2022.12.19
[1214] KoNLPy와 RNN(1) (1)	2022.12.14
[1212] CNN 마무리와 NLP 입문 (0)	2022.12.12
[1207] 전이학습과 다차원 배열 (0)	2022.12.07
[1206]합성곱 신경망 (Convolutional Neural Network, CNN) 실습 (1)	2022.12.06

댓글

티스토리툴바