비밀번호

커뮤니티2

  • 구름많음속초8.2박무북춘천0.6흐림철원1.1흐림동두천2.1흐림파주1.2흐림대관령1.8흐림춘천1.1맑음백령도8.6구름많음북강릉8.7구름많음강릉9.4구름많음동해9.8비서울3.7비인천4.9흐림원주2.0흐림울릉도7.0흐림수원5.0흐림영월2.1흐림충주3.9흐림서산8.2구름많음울진9.3흐림청주5.9흐림대전5.2흐림추풍령2.2흐림안동1.7흐림상주1.4흐림포항5.3흐림군산7.3흐림대구3.2구름많음전주9.0맑음울산8.4맑음창원8.3구름많음광주6.7맑음부산11.0구름조금통영9.1흐림목포8.1구름많음여수7.7흐림흑산도11.8흐림완도7.8흐림고창9.4구름많음순천7.3흐림홍성7.0흐림서청주3.9구름많음제주15.8구름많음고산14.1구름많음성산14.7구름많음서귀포15.3구름조금진주4.5흐림강화3.7흐림양평1.8흐림이천1.2흐림인제1.9흐림홍천0.8흐림태백2.4흐림정선군흐림제천2.1흐림보은2.5흐림천안5.4흐림보령9.0흐림부여5.3흐림금산3.6흐림세종4.2흐림부안8.1흐림임실4.8흐림정읍8.8흐림남원3.9흐림장수2.5흐림고창군9.6흐림영광군8.5맑음김해시7.6흐림순창군4.3맑음북창원7.2맑음양산시6.7구름많음보성군6.4구름많음강진군5.4구름많음장흥7.5구름많음해남11.0구름많음고흥9.4맑음의령군2.5흐림함양군1.8구름많음광양시7.7구름많음진도군12.0흐림봉화0.1흐림영주1.9흐림문경2.3흐림청송군-0.1흐림영덕6.7흐림의성흐림구미3.5흐림영천2.1흐림경주시3.0흐림거창-0.6구름많음합천3.0구름조금밀양4.6구름많음산청7.0구름조금거제7.9구름많음남해5.3맑음북부산7.9
  • 2025.12.16(화)

구글애널리틱스[Google Analytics]구글애널리틱스 커뮤니티입니다.

[GA4] 빅쿼리 Array와 Unnest 란?

 

 

오늘은 빅쿼리에서 사용하는 Array , 그리고 Array 하면 빠질 수 없는 Unnest 에 대해 알아보겠습니다

[Array 란 무엇일까]

빅쿼리 UI 상으로는 'Repeated' 라고 표현되는 것이 바로 Array 인데요,

 

 

예를 들어서 간단하게 아래 같은 구조의 도표가 있다고 생각해볼게요. 사람마다의 취미와 직업이 써져 있죠.

 

이렇게 각 1 사람당 1개의 취미 , 1개의 직업만 있다면 array 구조는 불필요합니다.

 

근데 취미가 여러개라면 ?

 

아래 이미지처럼 name 과 job 이 있던 행이 hobby가 늘어남에 따라

행이 5개였던게 8개로 늘어났죠.

 

 

지금은 예시이다 보니 5개 행이 8개로 늘었지만

수가 훨씬 많다면 공간 차지면에서 비효율적일수도 있고,

 

이후에 데이터를 추출할 때도, hobby 가 여러개 있다는걸 모르는 사람이라면

원하는 것과 다른 데이터를 가지게 될 수 도 있죠.

 

이럴 때 활용할 수 있는게 array 입니다.

 

아래 이미지를 보시면 array를 사용하면 hobby 가 여러개 있더라도

name 1명에게만 행이 생성되었습니다.

 


이렇게 한 개의 행에 특정 데이터들이 여러개 저장되면서, 데이터가 세로로 저장되 것이 Array 입니다.

참고로 빅쿼리에서 JSON 형식으로 아래와 같이 확인할 수 있습니다.

 

 

 

[Array 를 만드는 방법]

Array 를 만드는 방법은 여러가지가 있습니다.

[1] 대괄호

select 'HAYEON' name , ['십자수', '헬스장'] hobby , '공무원' job

 

[2] ' Array <타입>' + [대괄호]

select 'HAYEON' name , Array ['십자수', '헬스장'] hobby , '공무원' job

 

[3] Generate 함수

GENERATE_ARRAY (시작 숫자 , 마지막 숫자 , 간격)

select GENERATE_ARRAY(2,20,4) GENERATE_ARRAY

 

 

GENERATE_DATE_ARRAY (시작 날짜 ,마지막 날짜 ,간격)

select GENERATE_DATE_ARRAY('2024-07-01','2024-08-01',interval 1 week) GENERATE_DATE_ARRAY

 

 

 

[4] Array_agg 사용

ARRAY_AGG

 with hobby_table as

 (select '십자수' as hobby

  union all

  select '뜨개질' as hobby

  union all

  select '클라이밍' as hobby    

  union all

  select '게임' as hobby    

  union all

  select '요가' as hobby    

  union all

  select '영상 제작' as hobby  

 )

 

 select array_agg(hobby) as hobby_array

 from hobby_table

 

ARRAY_AGG는 나중에 자주 쓰게되는 것 같아서 좀 더 연습해볼게요 :)

 

위의 예시에서는 array 안에 넣을 항목들을 with 구문에 만들어 두었었는데

만약 저장되어 있는 테이블에서 array_agg 를 써야한다면 어떻게 해야할까요?

 

가장 처음에 가지고 있던 테이블을 보면 이렇게 되어 있는데,

 

 

만약..... 여기 있는 인물들이

직업이 바뀌는 상황이 있었다면? 연도별로 직업이 달라져야하지 않을까요?

또 중간에 취미가 바뀌거나 사라졌을 수도 있겠죠?

 

한번 아래처럼 표를 수정해보았어요.

 

 

 

2023년에서 2024년이 될 때

Hayeon , Yeji , Hyunji 는 job 에 변화가 있었고,

Jiyounh 은 hobby 가 2개에서 1개로 줄었습니다.

 

이 테이블에 yerar ,name,job 은 group by를 , hobby 와 job엔 array_agg 을 써볼게요

 

 

SELECT

    year,

    name,

    job,

    array_agg(hobby) hobby,

FROM `boheetest.SQL_Tableau.example`

group by year,name,job

 

 

이런식으로 array_agg 를 써줄 수 있습니다 :)

 

[Array 에 있는 값을 가져오는 방법 (1) 배열의 순서로 가져올 때]

array 에 있는 값은, 배열의 순서를 지정해서 가져올 수 있습니다.

이때, 숫자를 0부터 셀지 1부터 셀지에 따라 쓰이는 명령어가 다른데

 

Offset > 0부터

Ordinal > 1부터 입니다.

 

*만약 이 순서에 대해 숫자를 썼는데 그 값이 없었다면 오류가 발생하겠죠?

이런 경우를 대비해선 SAFE_OFFSET, SAFE_ORDINAL 을 사용할 수 있고, 값이 없으면 NULL 로 채워집니다.

 

아래와 같은 ARRAY 가 있다고 하면

Offset > 0부터/ Ordinal > 1부터니까

 

array_agg(hobby)[SAFE_OFFSET(0)] as hobby_array > '십자수'

array_agg(hobby)[SAFE_OFFSET(1)] as hobby_array > '뜨개질'

array_agg(hobby)[SAFE_OFFSET(3)] as hobby_array >'게임'

 

array_agg(hobby)[SAFE_ORDINAL(0)] as hobby_array > 'NULL'

array_agg(hobby)[SAFE_ORDINAL(1)] as hobby_array > '십자수'

array_agg(hobby)[SAFE_ORDINAL(3)] as hobby_array > '클라이밍'

 

여기까지 이렇게 array 에 대해 알아보았는데요,

array 하면 빠질 수 없는게 바로 unnest 이죠, 이어서 같이 알아보겠습니다!

 

 

[Array 에 있는 값을 가져오는 방법 (2) Unnest]

위에서 있었던 테이블은 사람마다의 취미와 직업이 있었죠,

그럼 이 중에서 '취미가 게임인 사람' 을 조회하고 싶어서 where 절로 필터를 걸었다면 어떻게 될까요?


<오류 발생 화면>

No matching signature for operator IN for argument types ARRAY and {STRING} at [13:13]

No matching signature for operator = for argument types: ARRAY, STRING. Supported signature: ANY = ANY at [14:7]

 

아래 쿼리에서는 'in' 을 써도 '=' 를 써도 비슷한 오류가 발생합니다.


with table as (

    select 'HAYEON' name , Array ['십자수', '헬스장'] hobby , '공무원' job

    Union all

    select 'YEJI' name , ['뜨개질','게임'] hobby , '주부' job

    Union all

    select 'MINJI' name, ['게임'] hobby , '직장인' job

    Union all

    select 'HYUNJI' name , ['필라테스','영상제작'] hobby , '대학생' job

    Union all

    select 'JIYOUNG' name , ['요가','클라이밍'] hobby , '직장인' job

)

select * from table

where hobby in ('게임')

 

 

그 이유는 지금 hobby 는 array 에 있는데, '게임' 이라는 string 값과 같은지 다른지조차 비교할 수 없기 때문이에요.

이럴때 필요한 것이 바로 unnest 입니다.

 

unnest 는'평면화'라고도 불리는데요,

 

뜬금없을 수 있지만 한번 엑셀의 셀 병합을 떠올려볼까요?

 

좌측이 일반적인 도표이고, 우측은 제가 같은 값들로 셀 병합을 한 상태인데요, 종종 병합된 셀에서 엑셀의 특정 기능을 실행할 때

 

 

이런 경고창과 함께 실행이 되지 않았던 경험 한번씩은 있으시죠?

이게 어떻게 보면 unnest 의 필요성 이에요.

 

현재 셀들이 같은 기준점에서 처리가 불가능한 상태이기 때문에

다 같은 구조로 만들어줘야만 (엑셀에서는 셀의 크기가 동일해야만) 하는 것이죠.

 

병합된 셀을 다시 기본 형태처럼 ,

즉, array 로 묶인 형태 ( = 병합된 셀) 를 푸는 것이 unnest 입니다.


[Unnest 사용 시 주의할 점]

unnst 를 사용할 때 꼭 유의하셔야 하는 부분은 '행의 갯수가 늘어날 수 있다' 는 점 이에요.

 

예를 들어서 위에 나온 인물들이 물건을 구매했고,

그 구매한 물건들이 array 형태인 테이블이 있다고 생각해볼게요.

 

 

이렇게 보면 각 사람별로 product_price 의 총 합과 total_price 값이 동일하죠?

 

근데 이 테이블이 만약 unnest 되었다면

아래처럼  total price 가 모든 행마다 붙게 되면서 원치 않는 total_price 값을 얻게될 수도 있어요.

실제로 ga 를 다룰 때 자주 발생하는 이슈이기도 하니 데이터 구조를 잘 파악하면서 사용해야 합니다 :)

 

 

그럼 오늘은 여기까지 array 와 unnest 에 대해 알아보았는데요,

다음 글에서는 struct 에 대해 정리해보고,

 

그 용법들을 ga 데이터에서 활용하는 방법에 대해 공유드리도록 할게요!

함께 소통하면 좋은 부분 있으시면 언제든 댓글 남겨주세요!

 

감사합니다 :) 

전체댓글0

검색결과는 총 62건 입니다.    글쓰기
1 2 3 4