Warren's blog

Product Analysis, Growth

collected_traffic_source & traffic_source 정의

GA4 & 빅쿼리 내보내기(Bigquery Export) (1편) – traffic_source VS. collected_traffic_source 스키마 분석

오랜 시간 블로그에 글을 올리지 못했으나, 이제 조금 여유가 생겨 차근차근 글을 써보려고 합니다. 그 동안 많은 분들이 글에 대한 좋은 피드백을 주셔서, 일일이 대답해 드리지 못했던 것에 대한 죄송한 마음이 있습니다. 이 글을 통해 다시 한 번 감사의 인사를 드리며 collected_traffic_source vs traffic_source 에 대한 글을 시작해보겠습니다.

빅쿼리에 쌓인 GA4 데이터 쿼리하는 방법

동적 날짜로 쌓이는 GA4 데이터 구조를 보고 싶으시다면, 이전에 작성한 글을 참고해보셔도 좋을 것 같습니다.

간단하지만 설명이 필요하신 분들을 위해 나중에는 GA4(Google Analytics 4) 데이터를 빅쿼리(Bigquery)로 쌓는 방법에 대해서도 포스팅 해보겠습니다.

오늘 작성할 글은 GA4를 통해 빅쿼리(Bigquery)에 쌓인 “events_” 에서 짚고 넘어가면 좋은 내용에 대한 것입니다.
애널리틱스 고객센터에는 GA4 빅쿼리 내보내기 스키마(GA4, Bigquery Export schema)가 잘 설명되어 있습니다.
아래 링크에서 더 자세한 내용을 보실 수 있습니다.

https://support.google.com/analytics/answer/7029846?hl=ko&ref_topic=9359001&sjid=17963877895875078037-AP

traffic_source VS. collected_traffic_source

“열(Columns)” 데이터를 보면 traffic_source 와 함께 collected_traffic_source 가 있습니다. 이것에 대한 정의와 함께 어떤 것을 의미하는지 안다면, 서비스에 어떤 경로로 어떤 활동을 통해 유저가 유입되었는지 파악하고 분석할 수 있습니다.

애널리틱스 고객센터에 의하면 traffic_sourcecollected_traffic_source 에는 다음과 같이 정의되어 있고, 필드가 구성되어 있습니다.

Source : Google, Analytics Help
  1. collection_traffic_source 레코드에는 이벤트와 함께 수집된 트래픽 소스 데이터가 포함됩니다.
  2. traffic_source 레코드에는 사용자를 처음 획득한 트래픽 소스에 대한 정보가 포함됩니다. 일중 표에서는 이 레코드가 채워지지 않습니다.
    참고: 사용자가 설치 후 후속 캠페인과 상호작용하면 traffic_source 값이 변경되지 않습니다.

collection_traffic_source 부터 설명하면서 차이점을 보겠습니다. 이 필드에는 manual이 포함된 manual_campaign_name, manual_source, manual_medium 등 utm param 으로 지정한 값들이 쌓이게 됩니다. 이와 함께 gclid, dclid 등이 쌓이는 것을 볼 수 있습니다.

이번에는 traffic_source 를 확인해보면, 필드에 traffic_source.name, traffic_source.medium, traffic_source.source 의 값이 쌓이며 이 필드의 정의는 모두 “사용자를 최초로 획득”한 트래픽 소스에 대한 정보가 포함되는 것을 볼 수 있습니다. 즉, 퍼스트 터치(first touch)값을 의미하며, 설명의 “참고”란에 있는 것 처럼, 사용자가 설치 후 후속 캠페인과 상호작용 해도, traffic_source 값은 변경되지 않는 것을 알 수 있습니다.

Insight

이것이 의미하는 것은 무엇이며, 어떤 인사이트를 얻을 수 있을까요?

짧게 예시를 통해 설명하면, 특정 캠페인을 통해 첫 번째로 방문한 유저는 GA4에 의해 퍼스트 터치(First Touch)기준인 traffic_source 에 쌓이게 되고, 이후 이 유저가 다른 캠페인으로 다시 유입되었다면 traffic_sourcecollection_traffic_source 를 비교하며 후속 캠페인의 성과와 유입을 통한 행동을 파악해 볼 수 있을 것입니다.

다른 표현으로 다시 이야기 하면, 첫 방문자의 주요 트래픽 소스를 확인해보고 싶다면 traffic_source 데이터를 활용하고, 현재 진행중인 캠페인의 트래픽 소스를 보고 싶다면 collection_traffic_source 데이터를 활용하는 것이 보다 적합할 것으로 보입니다. 왜냐하면 traffic_source 데이터를 사용할 경우 이전에 방문한 유저가 이번 캠페인에 포함되어 있다면, 이번 캠페인의 성과를 분석할 때의 “기여”가 이전 캠페인으로 이전되어 보여질 수 있기 때문입니다.

이 두 가지 데이터를 효과적으로 조합해 사용하면, GA4 를 통해 측정되는 디지털 마케팅 전략의 초기 효과와 장기적인 추이를 함께 평가하고 최적화 할 수 있을 것이라고 생각합니다.

2 thoughts on “GA4 & 빅쿼리 내보내기(Bigquery Export) (1편) – traffic_source VS. collected_traffic_source 스키마 분석

  1. 안녕하세요, 글 잘 읽었습니다.
    한 가지 궁금한 점이 있는데요. ga4에는 첫 사용자 트래픽소스, 세션 트래픽소스, 이벤트(수동 매뉴얼) 트래픽소스 측정기준이 있고 빅쿼리에서 설명해주신 두가지 트래픽소스 데이터는 첫사용자와 이벤트 범위과 관련이 있어 보입니다.
    그렇다면 각각의 세션에 대한 트래픽소스는 빅쿼리에서 어떻게 확인할 수 있을까요?

    1. 안녕하세요. 감사합니다.

      발생한 이벤트 로그에 대해 클라이언트로부터 전송받은 user_id 혹은 user_pseudo_id 컬럼을 ga_session_id와 결합하여 활용할 수 있습니다. 중복을 방지하기 위해서 DISTINCT를 사용할수도 있습니다.

      세션에 대한 자세한 내용은 Google Analytics 문서로도 보실 수 있습니다.
      https://support.google.com/analytics/answer/9191807?hl=ko

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다