비밀번호

커뮤니티2

  • 맑음속초-1.4맑음북춘천-6.1맑음철원-6.6구름많음동두천-5.3맑음파주-5.4맑음대관령-7.5맑음춘천-4.3맑음백령도-3.8맑음북강릉-2.0맑음강릉-0.8맑음동해0.3맑음서울-4.2맑음인천-5.4맑음원주-4.1눈울릉도-1.4맑음수원-3.6맑음영월-4.0맑음충주-4.2맑음서산-2.4맑음울진0.1맑음청주-2.5맑음대전-0.7맑음추풍령-2.5맑음안동-2.0맑음상주-0.7맑음포항1.5맑음군산-1.2맑음대구0.7맑음전주-0.3맑음울산0.8맑음창원2.9구름조금광주1.4맑음부산2.8맑음통영4.9구름많음목포0.7맑음여수2.3구름조금흑산도4.5구름조금완도3.8맑음고창0.3맑음순천-0.2맑음홍성-1.1맑음서청주-2.8구름조금제주6.5구름많음고산4.7맑음성산5.5맑음서귀포8.3맑음진주3.1맑음강화-4.9맑음양평-3.4맑음이천-3.1맑음인제-5.4맑음홍천-4.3맑음태백-3.5맑음정선군-5.3맑음제천-4.5맑음보은-2.5맑음천안-3.4맑음보령0.6맑음부여-0.3맑음금산-0.5맑음세종-1.3맑음부안0.6맑음임실-0.5맑음정읍-0.7맑음남원-0.1맑음장수-2.1맑음고창군-0.1맑음영광군0.5맑음김해시1.4맑음순창군-0.6맑음북창원1.6맑음양산시2.9구름조금보성군3.6구름많음강진군3.2구름많음장흥2.9구름많음해남2.8구름많음고흥2.1맑음의령군1.0맑음함양군1.1맑음광양시2.8구름조금진도군2.5맑음봉화-3.2맑음영주-1.9맑음문경-1.5맑음청송군-2.3맑음영덕-0.4맑음의성-0.6맑음구미0.6맑음영천0.7맑음경주시0.6맑음거창1.8맑음합천2.3맑음밀양2.1맑음산청2.1맑음거제2.1맑음남해2.9맑음북부산2.0
  • 2026.01.25(일)

구글애널리틱스[Google Analytics]구글애널리틱스 커뮤니티입니다.

GA4 데이터 샘플링, 기준점 적용, 카디널리티에 대해 알아보기

이번 글에서는 GA4를 사용하다보면 마주치는 데이터 샘플링, 기준점(Threshold) 적용, 카디널리티에 대해 알아보겠습니다.

 

1. 데이터 샘플링(Data Sampling)

탐색 보고서에서 데이터를 분석하면 아래와 같은 메시지를 볼 수 있습니다.

‘이 보고서는 이용 가능한 데이터의 48.3%를 기반으로 합니다.’

 

 

샘플링이라는 단어에서 알 수 있듯이 전체 중 일부를 사용한다는 것을 유추해볼 수 있는데요. 데이터의 양이 매우 많을 때 탐색 보고서의 속도와 성능을 최적화하기 위해 전체 데이터의 일부만 사용하는 데이터 샘플링이 적용되었다는 것을 말해줍니다.

GA4에서는 1,000만개의 이벤트 수를 기반으로 탐색 보고서에서 샘플링이 적용되어, 해당 할당량을 초과하는 경우 전체 데이터 대신 샘플 데이터를 사용하여 전체를 대표하는 보고서를 생성합니다.

 

데이터가 샘플링 될 때, 데이터 품질 아이콘을 통해 아래와 같은 옵션을 선택할 수 있습니다.

- 세부 결과(More detailed results) : 샘플 크기를 최대한 크게 설정하여 전체 데이터를 가장 잘 보여주는 결과를 제공함

- 빠른 결과(Faster results) : 샘플링 크기를 작게 설정하여 결과를 빠르게 제공하는 데에 초점

 

기본적으로 GA에서는 빠른 결과(Faster results)를 적용되지만, 세부 결과(More detailed results)를 선택하면 더 많은 양의 데이터를 사용하여 조금 더 정확한 값을 확인하실 수 있습니다.

 

데이터 샘플링을 해결할 수 있는 방법은 다음과 같습니다.

- 데이터 조회기간을 줄여서 데이터 모집단의 크기를 줄이기

- 향상된 측정 끄기

- 카디널리티가 높은 맞춤 측정기준 삭제 (3. 카디널리티 참고)

 

2. 기준점(Threshold) 적용

데이터 기준점은 보고서에서 사용자의 성별, 연령, 지역, 관심분야 등과 같이 특정 사용자를 유추하지 못하도록 특정 데이터를 제외시키는 것입니다. 이는 웹사이트에 방문한 사용자의 개인정보보호를 위해 생긴 기능으로, 기준점이 적용되면 일부 데이터를 확인할 수 없게 됩니다. 

 

기준점 적용은 데이터 샘플링과는 반대로 데이터 양이 너무 적은 경우 발생합니다. 보고서에 인구통계 정보가 포함된 경우 전체 사용자 수가 충분하지 않으면 사용자를 구별할 수 있는 것을 막기 위해 특정 데이터가 제외되는 것입니다.

기준점이 적용되면 일종의 샘플링과 유사하게 정확하지 않은 데이터가 집계될 수 있습니다.

 

기준점 적용을 해결할 수 있는 방법은 다음과 같습니다.

- (조회기간 내 사용자 혹은 이벤트 수가 적은 경우) 조회기간 늘려서 데이터 양 늘리기

- Google 신호 데이터 비활성화

  >> Google 신호 데이터는 인구 통계 정보나 구글 애즈에서 잠재고객을 활용한 리마케팅을 할 때 필요한데, 해당 데이터가 필요하다면 활성화시키지 않는 것이 좋습니다.

- 보고 ID를 ‘기기 기반’으로 설정

>> 기본적으로 보고 ID는 ‘혼합됨’으로 설정되어 있는데, 보고 ID를 ‘기기 기반’으로 변경하면 기기 ID를 기반으로 사용자를 식별하기 때문에 다른 기기로 사이트를 방문할 경우 다른 사용자로 식별하게 됩니다. (이로 인해 정확한 사용자 수를 측정하는 데 한계가 있는 옵션)

 

3. 카디널리티(Cardinarlity)

카디널리티는 데이터 측정기준이 가지는 고유한 값의 수를 의미합니다.

GA4는 카디널리티가 높은 맞춤 측정기준을 추가하는 것을 권장하지 않는데요. 예를 들어, payment_type(결제 방식) 이라는 측정기준에 ‘N Pay’, ‘계좌이체’, ‘신용카드’, ‘무통장입금’ 4가지의 값이 있다면, 이 경우에 카디널리티는 4입니다. 이정도는 카디널리티가 낮다고 말할 수 있지만, user_id나 item_name과 같은 측정기준은 수만 개 이상의 값을 가지고 있을 수 있기 때문에 카디널리티가 높을 것으로 예상됩니다.

 

카디널리티가 높다고 말할 수 있는 기준은 측정기준의 고유한 값이 일일 500개를 초과하는 경우입니다. 카디널리티가 높으면 저장해야 할 값이 많기 때문에 속도나 성능 측면에서 부정적인 영향을 미칠 수 있습니다.

보고서의 행 개수가 많아지다보니 행 한도(500개 이상)에 도달하여 일부 데이터가 (other) 행에 분류되고, 카디널리티가 25,000개 이상이라면 데이터 샘플링이 발생하는 점 주의하시길 바랍니다.

 

단, 탐색 보고서에서는 축약 행이 발생하지 않으므로, GA4 기본 보고서에서 (other)라고 표시된 행이 있다면 탐색 보고서에서 데이터를 확인하시는 것을 권장드립니다. 

other row
(other) 행이 생기는 예시

카디널리티를 해결할 수 있는 방법은 다음과 같습니다.

- 카디널리티가 높은 맞춤 측정기준을 삭제하거나 자제

- user_id는 맞춤 측정기준 대신 User-ID 기능 사용

- 맞춤 측정기준 생성 전에 가능한 기존 측정기준 사용

 

 

지금까지 알아본 데이터 샘플링, 기준점 적용, 카디널리티 3가지를 잘 이해하여 데이터 분석을 정확하고 효율적으로 해보시길 바랍니다.  

 

 

전체댓글0

검색결과는 총 62건 입니다.    글쓰기
1 2 3 4