23년 3월 6일
총 4회 교육 중 1번째 시간으로 아래 세가지 주제로 진행되었다.
1. 빅쿼리 시작하기
2. 쿼리생성, 코랩 연동
3. Word Cloud 시각화
하나씩 정리해보자.
1. 빅쿼리 시작하기
빅쿼리(BigQuery)는 구글(Google)에서 제공하는 데이터 웨어하우스 서비스이다.
구글에서 제공하는 다른 서비스들과 연동이 편한 장점이 있다.
그래서 구글 코랩(Colab)으로 쉽게 데이터를 넘길 수 있다.
빅쿼리를 이용하기 위해선 구글아이디가 필요하다.
구글 아이디로 로그인하면 위와 같은 페이지가 뜬다.
무료로 체험하기 버튼을 누른다.
2. 계정 및 결제 정보 등록
대략 이런 순서로 진행된다.
결제 수단으로 카드를 등록하게 되는데,
자동 가입 방지를 위함이며, 자동 요금 청구는 아니라고 한다.
모두 입력하고 평가판 시작하기 버튼을 누른다.
간단한 설문조사를 한다.
적당히 입력하고 넘어간다.
3. 데이터 추가하기(로컬 파일 업로드)
왼쪽 탭에서 BigQuery → SQL 작업공간으로 들어가면 샘플 프로젝트가 생성되어있다.
실습에서는 원티드에서 제공한 데이터를 활용하기 때문에 로컬파일 업로드를 선택한다.
3-1. 데이터 세트 만들기
로컬파일을 업로드하기 위해 테이블을 만들어야 한다.
그 전에, 테이블을 만들려면 데이터 세트를 만들어야 한다.
새 데이터 세트 만들기를 선택한다.
리전은 내가 만드는 데이터 세트가 저장되는 위치를 정하는건데,
잘 모르겠어서 eco로 표시되는 지역을 선택했다.
데이터 세트가 만들어졌으면 테이블명을 입력하고 유형을 선택한다.
3-2. 스키마 입력
스키마는 이런식으로 작성했다.
필드는 엑셀의 컬럼명과 같은 의미이다.
필드 이름과 유형을 선택한다.
이렇게 테이블을 만들려고 했는데 오류가 발생했다.
테이블을 만들 수 없음: Error while reading data, error message: Could not parse 'position_id' as INT64 for field position_id (position 0) starting at location 0 with message 'Unable to parse'
헤더 문제라고 하는데, 해결 방법은 두가지이다.
1). CSV파일을 구글 스프레드 시트로 불러와서 맨 위 컬럼명이 써있는 부분을 삭제하기
스키마로 컬럼명을 입력해주고, 파일 내에서는 유형이 통일되어야 한다.
따라서, 빅쿼리로 CSV 데이터를 불러올때는 설명없이 순수 데이터만 불러오면 된다.
2). 아래 고급옵션에서 1번째 행을 건너뛰기
위 그림과 같이 설정하면 설명이 표시되어있는 첫번째 행을 제외하고 아래 데이터만 사용한다.
아래에 파티션도 나눌 수 있는데, 그정도로 데이터가 크지 않기때문에 넘어간다.
(추가로, 파티션을 나누면 쿼리를 작성할때 WHERE절로 색인해야 한다고 한다.)
여기까지 하면 테이블 만들고, 데이터 추가하기가 끝난다.
'클래스 리뷰 > 23.03 프리온보딩 데이터 챌린지' 카테고리의 다른 글
프로덕트 개발 사이클, 그로스해킹, AARRR (0) | 2023.03.30 |
---|---|
원티드 채용 데이터 EDA (0) | 2023.03.18 |
코랩에서 Word Cloud 시각화 (0) | 2023.03.17 |
빅쿼리 쿼리 생성, 코랩 연동 (0) | 2023.03.12 |
[원티드] 프리온보딩 데이터 챌린지 신청 (0) | 2023.03.10 |
댓글