데이터 분석
구글 빅쿼리에 데이터 업로드 / Github 이용하기
engwoon
2025. 1. 21. 18:31
≣ 목차
구글 빅쿼리
- Google이 제공하는 머신러닝, 지리정보 분석, 비즈니스 인텔리전스와 같은 서비스를 제공함
- 이러한 서비스로 데이터를 관리하여 분석할 수 있게 해주는 데이터 웨어하우스
- 프로젝트 시 장점: 모두 공통된 데이터를 볼 수 있음
- 구글의 Colab, 스프레드시트 등 호환성 뛰어남
코랩에서 빅쿼리 연동
구글 빅쿼리 - 프로젝트 생성 & 인증키 발급하기
- 메인화면 좌측상단 프로젝트 클릭 - 새 프로젝트 생성
- 서비스 목록
- IAM 및 관리자: 프로젝트의 권한을 관리, 사용자 초대 등
- Compute Engine: 서버 관리
- Bigquery: 데이터웨어하우스
- API 및 서비스: 빅쿼리 데이터 전송에 대한 옵션
- 빅쿼리 API 설정
- 외부에서 빅쿼리에 API로 접근할 수 있도록
- API 및 서비스 -> 사용자 인증 정보 만들기 -> 서비스 계정
- IAM 및 관리자 -> 서비스 계정 -> 키 관리 -> 키 추가 -> .json파일 다운로드
* 키 추가하면 .json 파일 알아서 다운로드 됨
- 데이터셋 생성
- (메뉴) Bigquery -> Studio -> 데이터 세트 만들기
* mydataset 생성함.
이제 mydataset 안에 코드를 쓸 수 있는 테이블을 만들어야 함.
코랩 - 프로젝트 생성 & 인증키 발급하기
구글 빅쿼리에 코랩 코드를 연동해보자.
- 코랩에 빅쿼리에서 다운받은 .json 파일 인증키 올리기
# 코랩에 인증키 입력
from google.colab import files
from google.oauth2 import service_account
uploaded = files.upload() # 파일 업로드하기
# 서비스 계정 키 파일 경로 설정
key_path = list(uploaded.keys())[0] # 업로드한 파일 이름
credentials = service_account.Credentials.from_service_account_file(key_path)
- 빅쿼리에 업로드하기
from google.cloud import bigquery
# BigQuery 클라이언트 생성
client = bigquery.Client(credentials=credentials, project=credentials.project_id)
# 업로드할 데이터셋 및 테이블 정보 설정
dataset_id = "mydataset" # BigQuery 데이터셋 ID
table_id = "tips" # BigQuery 테이블 ID
# 데이터프레임 업로드
job = client.load_table_from_dataframe(tips, f"{dataset_id}.{table_id}")
# 작업 완료 대기
job.result()
# 결과 확인
print(f"Uploaded {job.output_rows} rows to {dataset_id}.{table_id}.")
* 여기까지 하면 구글 빅쿼리에 테이블 생성 됨
Github에 코랩 코드 가져다 쓰기
- Github : 코드를 공유하는 툴
- Repository(저장소): 코드를 저장하는 홈페이지
- `.py` : 파이썬 실행 스크립트 파일의 원조격. 주피터 노트북의 단일 셀
- Github에 코드 저장하려면 보통 .py 형태로 저장해야 함.
- 로컬 환경(vscode)에서 코드를 작성하고 작동하는 것을 확인하고, 코드 저장소에 올리는 편
- Github에 코랩 코드를 가져다 쓰려면?
- 아래 코드 코랩에 입력
!git clone https://github.com/bellepoque7/whereisplanb.git