텍스트 데이터 벡터화 하는 방법?
- 토큰화(str.split()) => one-hot-encoding => bag of words(min_df, max_df, analyzer, stopwords, n-gram)
- => TF-IDF(너무 자주 등장하는 단어는 낮은 가중치, 특정 문서에만 자주 등장하는 단어는 높은 가중치)
- RNN 은 순서가 있는 데이터를 예측할 때 주로 사용하는데 BOW 순서를 보존하지 않습니다. 그래서 시퀀스 방식의 인코딩을 사용했습니다.
- Embedding => 여러 각도에서 단어와 단어 사이의 거리를 봅니다. 가까운 거리에 있는 단어는 유사한 단어이고 거리가 멀 수록 의미가 먼 단어 입니다.
- => 의미를 좀 더 보존할 수 있게 되었습니다.
텍스트 데이터 전처리 방법?
- 정규표현식 => 텍스트 정규화
- 불용어 => 나, 너, 그것, 이것, 저것 처럼 자주 등장하지만 큰 의미를 갖지 않는 단어 제외
- 형태소 분석 => 의미가 없는 조사, 어미, 구두점 등을 제외
- 어간추출(stemming 원형을 보존하지 않음), 표제어표기법(lemmatization, 원형을 보존)
'멋쟁이사자처럼 AIS7 > 오늘코드' 카테고리의 다른 글
[1219] 시계열 데이터와 비즈니스 데이터 분석 (0) | 2022.12.19 |
---|---|
[1214] KoNLPy와 RNN(1) (1) | 2022.12.14 |
[1212] CNN 마무리와 NLP 입문 (0) | 2022.12.12 |
[1207] 전이학습과 다차원 배열 (0) | 2022.12.07 |
[1206]합성곱 신경망 (Convolutional Neural Network, CNN) 실습 (1) | 2022.12.06 |
댓글