2019/12 3

한국어 임베딩 - 3.한국어 전처리

이 글은 이기창 님의 저서인 한국어 임베딩 내용을 라마인드 하기 위해 정리한 문서입니다. https://github.com/ratsgo/embedding/ 3. 한국어 전처리 (p.79~) 3.1 데이터 확보 (p.80~) 3.1.1 한국어 위키백과 (p.80~) 코드 3-1 한국어 위키백과 다운로드 (bash) (p.81) 코드 3-2 한국어 위키백과 전처리 (python) (p.81) 코드 3-4 사용자 정의, 한국어 위키 토크나이저 (python) (p.84) 코드 3-5 한국어 위키백과 전과정 자동 전처리 (bash) (p.85) wikiextractor : 위키백과 정제 라이브러리 https://github.com/attardi/wikiextractor 3.1.2 KorQuAD (p.86~) 한..

Study 2019.12.21

한국어 임베딩 - 2.벡터가 어떻게 의미를 가지고 되는가

이 글은 이기창 님의 저서인 한국어 임베딩 내용을 라마인드 하기 위해 정리한 문서입니다. https://github.com/ratsgo/embedding/ 2. 벡터가 어떻게 의미를 가지고 되는가 (p.57~) 2.1 자언어 계산과 이해 (p.58~) 표 2-1 임베딩을 만드는 세 가지 철학 (p. 58) 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 쓰였는가 어떤 단어가 같이 쓰였는가 대표 통계량 TF-IDF - PMI 대표 모델 Deep Averaging Network ELMo, GPT Word2Vec 백오브워즈(Bag of Words) 가정 어떤 단어가 많이 쓰였는지 정보를 중시 단어의 순서(order) 정보는 무시함 언어 모델(Language M..

Study 2019.12.14

한국어 임베딩 - 1.서론

이 글은 이기창 님의 저서인 한국어 임베딩 내용을 라마인드 하기 위해 정리한 문서입니다. https://github.com/ratsgo/embedding/ 1. 서론 (p.27~) 1.1 임베딩이란 (p.28~) 1.2 임베딩(embedding)의 역할 (p.30~) - 단어/문자 강 관련도 계산 - 의미적/문법적 정보 함축 - 전이 학습 임베딩 - 단어/문자 강 관련도 계산 단어 벡터들 사이의 유사도를 계산 가능 Word2Vec, FastText, NPLM, GloVe, Swivel t-SNE라는 차원 축소 기법으로 N(N>2)차원 이상의 단어 벡터들을 2차원으로 줄여 시각화 가능 임베딩 - 의미적/문법적 정보 함축 단어 벡터 간 덧셈/뺄셈을 통해 단어들 사이의 의미적, 문법적 관계를 도출 가능 (단어..

Study 2019.12.14