클래스 리뷰62 [원티드] 프리온보딩 데이터 챌린지 신청 채용 사이트인 원티드에서 데이터관련 교육을 진행하길래 신청했다. 실제 교육기간은 2주이며, 주 2회 진행된다. 교육비는 무료다. 커리큘럼은 아래와 같이 나와있다. 커리큘럼은 데이터분석 공고에 필수적으로 등장하는 A/B 테스트, AARRR, 코호트 분석 등의 내용으로 이루어져 있다. 개인적으로 빅쿼리를 써보고 싶었는데, 마침 커리큘럼에 포함되어 있다. 3월의 도전은 데이터분석으로 결정! 2023. 3. 10. 데이터베이스 이론 1. 데이터베이스 1-1. 데이터베이스란? 데이터를 저장하고 관리하는 곳, 방대한 데이터를 관리하는 일 데이터베이스 관리 시스템 : 다수의 사용자가 데이터베이스에 접근하고 데이터를 사용하는 시스템 데이터베이스 특징 : 1). 실시간 접근성 : 수 초 내에 결과를 보여주는 실시간 서비스 2). 계속적인 변화 : 데이터 값은 시간에 따라 바뀜 3). 동시 공유 : 여러 사용자에게 동시에 공유 4). 내용에 따른 참조 : 저장된 데이터는 물리적인 위치가 아니라 데이터 값에 따라 참조 됨 1-2. 데이터베이스 기본 기능 데이터 삽입, 삭제, 수정, 조회 가능 동시성 제어 : 일관성, 정합성에 오류가 없도록 제어해야 함. 영화관 좌석이 중복으로 결제되면 대혼란... 장애 대응 기능 : 데이터베이스는 데이터 손실이.. 2023. 3. 5. 웹크롤링 프로젝트 : CGV 리뷰 크롤링 1. 크롤링 과정 간단정리 1). 개발자 도구 - elements tap : 어떤 tag와 어떤 속성을 갖는지 표시 - network tap : - clear : log 지움 - preserve log : log 기록 - browser에서 server에 자료를 요청하고, 업로드되는 것을 볼 수 있음 - 이미지의 경우 개별적으로 업로드 됨 - 댓글의 경우도 API를 이용하여 개별적으로 업로드 됨 2). HTTP Mathod : HTML 문서 등의 리소스를 전송하는 프로토콜 - HTML(Hyper Text Markpu Language) : 웹사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어 - 리소스 요청 : 클라이언트 → 서버(Get, Post 등) - 리소스 응답 .. 2023. 3. 3. Numpy, Pandas, Seaborn 1. Numpy(수치계산) 1-1. universal function numpy array는 vector처럼 사용할 수 있다. 대부분의 데이터 분석 라이브러리들이 벡터를 사용한다. 데이터 분석 시 데이터를 벡터로 표현하는데, 벡터가 numpy array로 표현되기 때문에 중요하다. broadcase : 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcase) 해주는 기능이다. universal function : 하나의 함수를 모든 원소에 자동으로 적용해주는 기능이다. 1-2. Masking indexing : list에서의 indexing과 동일한 방법이다. masking ex) data[ : , : ] 이런 식으로 data['raw 검색 조건', 'column 검.. 2023. 2. 22. python 기초 문법 1. 프로그래밍? 1-1. Computer Architecture cpu(Instruction) ↔ ram(Program) ↔ ssd(Files) ssd의 데이터를 cpu에서 사용하려면, 중간다리 역할인 ram의 역할이 중요하다. 1-2. 프로그래밍 프로그래밍을 잘 하기 위해선 아래 항목을 만족해야 한다. -가독성(읽기 쉬운가) -확장성(오픈소스 라이브러리가 많은가) -생산성(개발속도가 빠른가) 1-3. Python 태생적으로 수치연산에 약하다. 실수형태의 계산이 반복되면 오류가 증가하게 된다. 때문에 수치연산 라이브러리인 numpy를 사용한다. 2. Data type Python은 변수에 값을 할당하는 코드를 실행할 때 데이터 타입이 결정된다.(Dynamic Type Binding) 데이터 타입에 따라.. 2023. 2. 21. [패스트캠퍼스] 딥러닝 강의 - 6주차 학습일지 - 파이널 프로젝트 및 후기 6주차 요약 주어진 데이터를 이용하여 유사 상품 추천 모델을 만드는 프로젝트이다. - 데이터 EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 부터 시작해서, - ResNet101 알고리즘을 이용하여 데이터를 학습시키고, (Point. 학습된 알고리즘에 맞게 Input Size(shape)를 조절해서 입력되도록 해야한다.) - KNN 알고리즘으로 가장 유사한 이미지 5장을 추출하는 것까지 해봤다. 과정에 분류(Classification), 회귀(Regression), 클러스터링(Clustering)에 해당하는 알고리즘들을 전반적으로 다루고, 각각 실습도 진행하기 때문에 코드구현을 연습해본다. 그리고 머신러닝, 딥러닝 코드는 tensorflow라는 잘 만들어진 라이브러리를 사용하.. 2023. 2. 8. [패스트캠퍼스] 딥러닝 강의 - 5주차 학습일지 - 클러스터링 모델 정리 5주차 요약 5주차는 비지도학습(Unspervised Learning)의 한 부분인 클러스터링(Clustering)에 대해 공부했다. 비지도학습 특징으로, 정답에 해당하는 target value가 없다보니 feature vector가 중요하게 작용한다. 4가지 모델(K-means, Hierarchical Agglomerative Clustering, DBSCAN, Spectral Clustering)에 대한 이론 설명과 실습으로 구성되었다. (이론 정리부터 하고 실습은 추후에 첨부할 예정이다.) 클러스터링(Clustering) 모델 1). K-means K-means 클러스터링 모델은, 쉽게 풀어쓰면 K개의 평균지점을 찾는 것이다. - (a) 그림과 같은 데이터가 있을 때, 우리가 2개(= K)의 군집으.. 2023. 2. 8. [패스트캠퍼스] 딥러닝 강의 - 4주차 학습일지 - 회귀 모델 정리 4주차 요약 4주차는 지도학습(Supervised Learning)의 한 부분인 회귀(Regression)에 대해 공부했다. 4가지 모델(Linear Regression, Lasso & Ridge, XGBoost, LightGBM)에 대한 이론 설명과 실습으로 구성되었다. (이론 정리부터 하고 실습은 추후에 첨부할 예정이다.) 회귀(Regression) 모델 1). Linear Regression(선형 회귀) 위 그림은 Weight, Horseposer에 따른 MPG와의 관계를 좌표로 표시한 그래프이다. 식으로 표현하면 y(MPG) = W1 * X1(Weight) + W2 * X2(Horseposer) + b로 나타낼 수 있다. 만약 위 그림처럼 데이터들이 선형성을 갖고, 이를 가장 잘 표현하는 함수를 .. 2023. 2. 3. [패스트캠퍼스] 딥러닝 강의 - 3주차 학습일지 - 분류 모델 정리 3주차 요약 3주차는 지도학습(Supervised Learning)의 한 부분인 분류(Classification)에 대해 공부했다. 4가지 모델(Linear Classifier, Logistic Regression, Decision Tree, Random Forest)에 대한 이론 설명과 실습으로 구성되었다. (이론 정리부터 하고 실습은 추후에 첨부할 예정이다.) 분류(Classification) 모델 1). Linear Classifier(선형 분류) Linear Classifier는 하나의 선형 식으로 데이터를 나누어 구분하는 방법이다. 위 그림(from wikipedia)과 같이 검은색 점과 흰색 점을 구분하려고 할 때, 파란색 선(H1)과 빨간색 선(H2)이 데이터를 잘 구분하고 있다. 그리고 그.. 2023. 2. 1. [패스트캠퍼스] 딥러닝 강의 - 2주차 학습일지 2주차 요약 2주차는 머신러닝 기초 개념에 대해 공부했다. 강사님이 최대한 쉬운 예시를 들어 설명해준다. 대부분 알고있는 내용이어서 복습하는 느낌으로 들었지만, 모르는 상태였다고 가정해도 두 세번 들으면 이해할 수 있을만큼 설명한다. 1. 머신러닝 개념 및 구분 1). 머신러닝 개념 머신러닝 : 원하는 목표(target, y, output)를 달성하기 위해 갖고있는 데이터(feature, X, input)를 활용하여 학습(Learning)하는 것(딥러닝보다 상위 개념) 딥러닝 : 원하는 목표를 달성하기 위해 갖고있는 데이터를 활용하여 Neural Network 방법으로 학습하는 것 지도학습을 기준으로 간단하게 풀어보고자 한다. 고등학교때 배웠던 1차 함수 y=ax+b를 생각해보면, a, b가 특정 값으로.. 2023. 1. 15. 이전 1 2 3 4 5 ··· 7 다음 반응형