728x90
반응형

전체 글 110

딥 러닝을 이용한 자연어 처리 입문_Vector model study

딥 러닝을 이용한 자연어 처리 입문 https://yumere.tistory.com/85 간단한 Vector Space Model 설명 Vector Space Model Vector Space Model 또는 Term Vector Model은 문서 혹은 단어를 Vector 형태로 나타내는 것이며 텍스트 문서를 단어 색인등의 식별자로 구성된 벡터로 표현하는 대수적 모델이다. 정보검색,.. yumere.tistory.com https://wikidocs.net/21698 01) 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정 ... wikidocs.net

Deep Learning 2022.02.14

[WLS] video embadding

What I Learned from Startup Video embedding series 비디오는, 유투브에 올릴 것이 아니라면, Vimeo 스트리밍 사이트에 올려서 파일을 프로그래밍하고, Vrew같은 편집 툴을 사용한다. https://vimeo.com/ko/upgrade https://vrew.voyagerx.com/ko/ VREW - 영상편집을 자동자막과 함께 Vrew는 인공지능을 활용한 영상 편집 프로그램입니다. 신개념 영상 편집을 지금 경험해보세요. vrew.voyagerx.com 요금제 가격 책정 | Vimeo Pro, Plus, Business, Premium, Enterprise 및 OTT vimeo.com

Startup 2022.02.14

[WLS] Global Language Page

What I Learned from Startup Global language series 10개언어로 UI를 설정할 수 있는 사이트를 기획하고 있다. 구글 번역 서비스는 번역이 현지어 스럽지 않기 때문에 네이티브에 도움을 받아 1차 번역을 한 후에 번역된 자료를 가지고 사이트에 입혔다. 아랍어, 영어, 스페인어, 한국어, 중국어 등등의 언어로 UI가 보이는 글로벌 페이지는 어떻게 기획을 해야할까? 각 언어마다 페이지를 다르게 디자인해야 한다. Language 파일에 언어만 대체해서 넣으면 되는 것이 아니라, 각 나라 페이지에 맞게 폰트나 글씨 사이즈 등이 다르게 들어가야 한다. 그렇지 않으면, 폰트의 정렬이 망가지거나 멋스럽게 보이지 않을 수 있다. 참고로 아랍어는 영어나 한국어와는 반대로 읽기 때문에..

Startup 2022.02.14

소프트뱅크의 첫 투자 실패 스타트업 ‘Brandless’

소프트뱅크 주요 투자사 중 첫 실패 업체가 나왔다. 구글 벤처, 소프트뱅크의 비전펀드로부터 2억 4천만 달러 (약 2천 8백억원)의 투자를 받은 미국 스타트업 ‘Brandless (브랜드리스)’가 올해 초 폐업을 공식 선언했다. 2017년 창업 1년 만에 기업가치가 5억원에 달했고 큰 주목을 받았던 만큼 이번 폐업은 많은 소비자들이 아쉬워 하고 있으며, 유통업계에 또 다른 이슈를 낳고 있다. Brandless는 현재 90%의 직원을 해고했고, 웹사이트는 이미 제품 리스트를 내리고 주문을 받지 않고 있다. Brandless로 말하거 같으면 국내 이마트의 노브랜드나 코스트코의 Kirkland 제품과 비슷한 비즈니스 모델을 기반으로 시작한 스타트업이다. 생필품, 가공식품 등 300여개의 친환경, 무화학성분첨가..

Startup 2022.02.14

Tableau Desktop Specialist Certification 합격 후기

저는 2021 US Tableau Conference 참가 하면서 부터 Tableau에 대한 관심을 가지기 시작했어요. 그리고 자격증 공부를 시작했지요. 2022년 2월 오프라인으로 시험을 봤어요. 지금 한국에서는 온라인 시험은 불가하더라구요. 제가 참고했던 블로그들은 다 온라인으로 시험보신 사례들을 나눠주셔서, 오프라인 사례는 못 찾았어요. 제가 시험 등록할 당시, 코로나 때문에 시험이 가능한 기관이 하나 있었어요. 그동안 제가 인터넷 여기저기서 찾아서 풀어봤던 내용과는 비슷은 한데 많이 달랐어요.(비슷한데 많이 다르다는 말이 좀 이상하지만;;) 확실이 연습문제보다는 어려웠어요. 그동안 못 풀어봤던 연습문제들이 대부분 나왔어요. 시간도 왜이렇게 빨리 흘러가는지... 모르는 문제는 표시하고 넘어갔다가 나..

Tableau 2022.02.14

Pandas의 자료구조

Pandas는 데이터 분석(Data Analysis)을 위해 널리 사용되는 파이썬 라이브러리 패키지이다. Pandas는 크게 세가지의 자료구조로 되어 있다. | Series 가장 간단한 1차원 자료구조인 Series는 배열/리스트와 같은 일련의 시퀀스 데이타를 받아들이는데, 별도의 인덱스 레이블을 지정하지 않으면 자동적으로 0부터 시작되는 디폴트 정수 인덱스를 사용한다. import pandas as pd data = [1, 3, 5, 7, 9] s = pd.Series(data) --------- 0 1 1 3 2 5 3 7 4 9 Series가 리스트와 다른 점: index가 메모리에 저장되어 관리가 된다. | DataFrame 여러개의 Series가 모여 행과 열을 이룬 데이터 import pand..

Pandas 2022.02.13

Exploratory Data Analysis (EDA)_1. Feature Distribution Visualization

Exploratory Data Analysis (EDA) 💡 데이터 모델링 전에, 데이터가 모델링에 적합한지 알기 위해서 다양한 각도에서 관찰하고 이해하는 과정입니다. 데이터 분포에 대해서 파악하고, 결측치, 이상치 등 데이터가 이상이 없는지 그리고 데이터 변수 간의 상관성은 얼마나 있는지 통계적 방법으로 미리 탐색적 분석을 하는 과정입니다. 탐색적 데이터 분석 과정 간단하게 얘기하면 정해진 틀 없이 데이터에 대해 최대한 많은 정보를 뽑아내면 됩니다. 평균값,중앙값,최솟값,최댓값, 법위,분포, 이상치 등이 있습니다. 이러한 값들을 확인하고 히스토그램, 그래프 등의 다양한 방법으로 시각화하면서 데이터에 대한 직관을 얻어야 합니다. Feature Distribution Visualization Feature..

Machine Learning paradigms schematization

Machine Learning paradigms schematization. 비지도 학습( Unsupervised Learning) 우리가 예측해야 하는 값(target)의 출력값이 없이 입력 데이터 만을 이용하여 학습 알고리즘을 가르쳐야 하 는 모든 종류의 머신러닝 비지도 학습의 종류: clustering(군집화), 차원 축소 비지도 변환: 100개의 특징을 다 쓰면, 과대적합이 생기니까, 중요한 성분을 뽑아낸다. 공통성이 있는 특징을 만들어서 10개만 추출해서, 100개 특징을 99% 쓴 것과 같은 효과를 낸다. 적은 수로도 기존의 데이터 성질을 잘 반영할 수 있도록 변환 시켜 준다. 예) PCA 특성이 많은 고차원 데이터의 특성(feature)의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현..

Machine Learning

What is Machine Learning? | 일반적으로는 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법입니다. 예를들어, 금융 사기 거래를 적발하는 프로그램을 만들어서 금융 사기 예측, 자전거 대여 수를 예측, 스팸 메일 구분 등에 사용할 수 있습니다. Why Is It Important? | 이런 것들을 예측하기 위해서는 다양한 환경 변수, 규칙, 케이스들이 존재하는데, 규칙들이 복잡해 지면 인간이 다룰 수 있는 한계가 있습니다. 그리고 시간과 비용의 한계, 예측의 정확성이 떨어질 수 있습니다. 업무적으로 복잡한 조건/규칙들이 다양한 형태로 결합하고 시시각적으로 변하면서 도저히 소프트웨어코드로 로직을 구성하여 이들을 관통하는 일정한 패턴을 찾기 어려운 경우에 머신러닝은 숨겨진 패..

728x90
반응형