커뮤니티2

속초13.3북춘천3.0철원2.7동두천4.3파주5.3대관령6.4춘천3.1백령도10.8북강릉11.5강릉13.0동해13.5서울7.6인천8.1원주4.1울릉도12.1수원5.9영월3.0충주3.7서산2.9울진10.3청주5.9대전5.1추풍령2.5안동5.0상주5.4포항9.4군산4.6대구8.4전주4.7울산8.7창원10.8광주6.8부산11.1통영8.9목포6.8여수8.6흑산도7.4완도6.4고창2.8순천7.0홍성5.2서청주3.4제주9.7고산10.0성산10.9서귀포13.7진주7.2강화7.5양평4.1이천4.2인제4.5홍천2.9태백9.0정선군3.2제천2.0보은1.4천안2.7보령3.9부여2.3금산1.8세종3.0부안5.0임실0.9정읍3.8남원2.6장수0.0고창군4.5영광군3.4김해시10.8순창군2.7북창원10.7양산시11.9보성군6.4강진군5.3장흥4.0해남5.6고흥4.3의령군4.3함양군2.2광양시6.8진도군7.8봉화2.0영주4.2문경4.3청송군3.1영덕8.8의성3.4구미6.5영천6.8경주시8.7거창2.5합천4.7밀양9.3산청4.7거제11.8남해10.0북부산11.9
2026.04.21(화)

HomeHome 데이터 엔지니어링 데이터 엔지니어링

데이터 엔지니어링데이터 엔지니어링

Python pandas 모듈의 DataFrame 객체를 Google Bigquery로 로드하기

itertools 669 0 0 2024-03-25 15:19:41

Python에서 pandas 모듈로 생성환 DataFrame 객체를 그대로 BigQuery로 로드할 경우

구글에서 제공하는 google-cloud-bigquery SDK를 사용하거나,

타사에서 제공하는 pandas-gbq 모듈을 사용할 수 있다.

1. pandas-gbq

임의의 데이터를 가진 DataFrame 인스턴스 df가 있다고 가정할 때,

데이터프레임 인스턴스에서 바로 to_gbq 메소드를 호출하여 빅쿼리로 데이터프레임의 내용을 로드할 수 있다.

프로젝트안에 데이터셋, 테이블이 존재하지 않을 경우 자동으로 생성하며 if_exists로 테이블이 존재할 경우의 행동도 정의할 수 있다.

table_schema를 기입하지 않을 경우 데이터프레임으로부터 스키마 추론 방식:

dtype	BigQuery Data Type
i (integer)	INTEGER
b (boolean)	BOOLEAN
f (float)	FLOAT
O (object)	STRING
S (zero-terminated bytes)	STRING
U (Unicode string)	STRING
M (datetime)	TIMESTAMP

credentials, destination_table 등의 기본적인 정보만 세팅하면 간단하게 빅쿼리로 데이터를 로드할 수 있으나, 내부적으로는 데이터프레임으로부터 로컬에 임시 csv 파일을 생성하고, 이를 빅쿼리에 로드하는 방식으로 영문 컬럼명이 아닐 경우 인코딩 문제, 데이터프레임에서 NaN 결측치가 포함된 컬럼의 경우 NaN은 부동소수 데이터타입으로 컬럼 데이터타입이 integer가 될 수 없는 문제 등 몇가지 단점이 존재함

이외에도 read_gbq 메소드로 빅쿼리의 데이터를 가져오는 메소드도 존재

2. google-cloud-bigquery SDK

SDK를 통해 직접 데이터를 로드하는 방식

pandas-gbq와 동일하게 스키마 정의에서 컬럼의 데이터타입을 추론할 수 있으나, 의도치 않은 결과가 발생할 수 있으므로 스키마는 직접 정의하는게 좋음

워크플로우는 다음과 같음

- credentials json파일 또는 직접 정의된 dict로 인증하여 bigquery.Client 객체 생성

- credentials의 project에 데이터셋, 테이블 존재여부 확인 및 생성

- 데이터프레임으로부터 테이블 생성시 사용할 스키마 정의

- 스키마가 정의된 테이블로 데이터 로드

마지막 단계에서 데이터를 로드할 경우 사용할 수 있는 방식은 다음과 같음

bigquery.Client 인스턴스를 client라 할 때

- client.insert_rows_from_dataframe 메소드 사용

- client.insert_rows_from_json 메소드 사용

insert_rows_from_dataframe 메소드의 경우 pandas-gbq 모듈에서 발생한 문제가 동일하게 생길 수 있으므로

insert_rows_from_json 메소드 사용 추천

임의의 데이터를 가진 DataFrame 인스턴스 df가 있다고 가정할 때,

주의할 점은 dict 객체를 json 형태로 로드하게 되는데, 이때 객체가 포함될 경우 serialize가 불가능하므로 예외가 발생함

특히 pd.Timestamp 시계열 데이터, NaN(numpy) 등이 객체타입이므로 해당 데이터들은 문자열 등의 타입으로 변환하고 dict 객체로 캐스팅해야함(NaN의 경우 None으로 대체)

로드가 모두 성공적으로 끝났다면 errors는 빈 배열이며, 로드 과정에서 문제가있는 row가 에러메시지와 함께 errors에 담기게 되므로 이를 통해 후처리를 진행

2-2.

insert_rows_from_*은 대량의 데이터를 업로드할 시 오류가발생함

구글 빅쿼리 SDK로 LoadJob을 생성하여 테이블 로드를 진행

해당 작업은 SDK 내에서 비동기적으로 진행되며 result 메소드는 해당 작업이 완료될 때 까지 대기 후에 실행 결과를 반환

전체댓글0

1 2

커뮤니티2

데이터 엔지니어링데이터 엔지니어링

Python pandas 모듈의 DataFrame 객체를 Google Bigquery로 로드하기

전체댓글0

[ML/DL] 그래프 데이터를 통계적으로 분석하는 방법

[ML/DL] Graph Neural Networks - What is it??

Gitlab Pipeline schedules를 사용하여 예약 배포하기

Big Query Export Notification 구축 방법

Airflow AwsEcsExecutor Fargate 워커 사용 시 ECR 태스크 정의 설정

[ML/DL] Transformer - KV-Cache

Airflow Dynamic Task Mapping 사용 시 map_index 지정하기

[Apache Airflow 2.10.0 Hybrid Executor] 새로 생긴 Multiple Executor 기능을 통해 DAG / Task마다 별도의 Executor로 실행하기

[LLM] - Write a better prompt

Docker 컨테이너로 실행하는 Airflow의 무중단 배포(Blue/green deployments)

AWS PrivateLink로 VPC내에서 사용하는 AWS 서비스 통신 비용 줄이기

LLM 어플리케이션 개발에 따른 보안 이슈

RAG? Vector RAG? Graph RAG?

Airflow task를 ECS Fargate task로 실행하기(AwsEcsExecutor)

Airflow task를 ECS Fargate task로 실행하기(Airflow ECSOperator)

[AWS] - Large Dependencies with AWS Lambda

How to get a GCP service account key - 구글 서비스 계정 key json 발급받기

helm chart로 Airflow 운영 시 log를 AWS S3에 저장하기

[Nginx, FastAPI, gunicorn] gunicorn timeout 트러블슈팅

Adobe Analytics API로 데이터 추출하기(2)

How to get a GCP service account key - 구글 서비스 계정 key json 발급받기

Gitlab Pipeline schedules를 사용하여 예약 배포하기

[ML/DL] Transformer - KV-Cache

Airflow AwsEcsExecutor Fargate 워커 사용 시 ECR 태스크 정의 설정

[ML/DL] Graph Neural Networks - What is it??

[ML/DL] 그래프 데이터를 통계적으로 분석하는 방법

[ML/DL] Graph Neural Networks - What is it??

Gitlab Pipeline schedules를 사용하여 예약 배포하기

Big Query Export Notification 구축 방법

Airflow AwsEcsExecutor Fargate 워커 사용 시 ECR 태스크 정의 설정