728x90
반응형

Deep Learning 3

Stemming VS Lemmatization

어간추출 스테밍 (Stemming) 출처 : 어간 추출 - 위키백과, 우리 모두의 백과사전 어간 추출(語幹 抽出, 영어: stemming)은 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것 “cats”(“catlike”, “catty” 등도 마찬가지)의 어간으로는 “cat”이 추출된다. “stemmer”, “stemming”, “stemmed”의 어간은 “stem”이다. “fishing”, “fished”, “fisher”는 “fish”가 된다. “argue”, “argued”, “arguing”, “argus”의 어간은 “argu”이다. “argument”, “arguments”에서는 “argument”가 추출된다. 스테밍 알고리즘 1. 포터스테머 알고리즘을 통한 어간 추..

Deep Learning 2022.02.26

딥 러닝을 이용한 자연어 처리 입문_Vector model study

딥 러닝을 이용한 자연어 처리 입문 https://yumere.tistory.com/85 간단한 Vector Space Model 설명 Vector Space Model Vector Space Model 또는 Term Vector Model은 문서 혹은 단어를 Vector 형태로 나타내는 것이며 텍스트 문서를 단어 색인등의 식별자로 구성된 벡터로 표현하는 대수적 모델이다. 정보검색,.. yumere.tistory.com https://wikidocs.net/21698 01) 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정 ... wikidocs.net

Deep Learning 2022.02.14

다양한 신경망 - MNIST 분류 CNN 모델

NIPA AI 엘리스 교육 내용 정리 신경망을 이용한 학습을 시작할 때 대부분 MNIST를 접하게 됩니다. MNIST는 손글씨로 된 사진을 모아 둔 데이터입니다. 손으로 쓴 0부터 9까지의 글자들이 있고, 이 데이터를 사용해서 신경망을 학습시키고, 학습 결과가 손글씨를 인식할 수 있는지 검증합니다. CNN을 위한 데이터 전처리 MNIST 데이터는 이미지 데이터이지만 가로 길이와 세로 길이만 존재하는 2차원 데이터입니다. CNN 모델은 채널(RGB 혹은 흑백)까지 고려한 3차원 데이터를 입력으로 받기에 채널 차원을 추가해 데이터의 모양(shape)을 바꿔줍니다. 결과는 아래와 같습니다. [데이터 수, 가로 길이, 세로 길이] -> [데이터 수, 가로 길이, 세로 길이, 채널 수] CNN 이미지 처리에서 성..

Deep Learning 2021.11.18
728x90
반응형