데이터 전략 개발시 간과해선 안될 질문 4가지

요즘 세계는 매일같이 생성되는 2.5 퀸틸리온(250경) 바이트의 데이터로 넘쳐 나고, 모든 데이터의 90%가 불과 최근 2년 사이에 생성됐다.

이처럼 방대한 양의 데이터는 마케터에게는 커다란 기회를 제공하지만, 동시에 해결해야 할 도전과제이기도 하다. 데이터를 확보하기는 비교적 쉬운 반면, 그 유용성과 가치를 어떻게 보장할 것인가는 쉽지 않은 문제다. 데이터를 기반으로 비즈니스에 도움되는 효과적인 마케팅 캠페인을 구상할 수 있는 방법은 무엇일까?

데이터 전략을 개발할 때 흔히 간과되고 있는 4가지 핵심 질문을 통해 그 해답을 찾아볼 수 있다. 의미 있고 비즈니스 목표에 부합하는 데이터를 확보하기 위해서는 반드시 짚고 넘어가야 할 질문들이다.

Q1: 얼마나 최신 데이터인가?

데이터 최신성은 데이터 전략 수립의 핵심 지표 중 하나이다. 최근의 데이터일수록 끊임없이 변화하는 소비자의 행동 패턴을 더욱 밀접하게 반영하므로 더 높은 가치를 갖는다.

분석 도구를 사용하면 고객의 최근 웹사이트 방문 및 구매 간격을 기준으로 최신성 점수를 매기고, 마케팅 전략에 따라 도움이 될 만한 신규 유저 그룹을 따로 추출할 수 있다.

그러면 마케팅 예산을 훨씬 효율적으로 집행할 수 있게 된다. 가령, 대부분의 유저가 웹사이트를 방문하는 것은 한 달에 한 번인데 매일 이들을 대상으로 마케팅 활동을 진행한다면 예산을 낭비하게 된다. 해당 예산을 더 자주 방문하는 특정 유저 대상 캠페인이나 자주 방문하지 않는 유저를 단골 고객으로 전환하기 위한 캠페인 등 맞춤형 마케팅 전략에 사용하면 더 효율적인 결과를 낼 수 있다.

따라서 새로운 캠페인을 론칭하기 전에 유저별 최신성 점수를 참조하는 것이 좋다. 그러면 동일한 마케팅 자료가 같은 고객에게 여러 번 전송되는 상황을 방지하고, 잠재고객을 한층 더 효과적으로 세분화할 수 있다.

Q2: 데이터에 어느 정도의 노이즈가 있나?

모든 데이터가 동일하게 생성되는 것은 아니다. 때로는 데이터의 일부 값이나 라벨에 미세한 오류, 즉 노이즈가 끼어 있다. 몇 퍼센트 포인트는 큰 수치가 아닌 것처럼 보일 수 있지만, 데이터를 손상시키거나 왜곡하기에 충분한 수준이다. 그러면 정제된 데이터와는 완전히 다른 결과를 내놓거나 결국 비효율적인 마케팅 전략으로 이어질 수 있다.

이럴 경우, 노이즈를 제거하기 위해 다른 변수들을 면밀히 검토해야 한다. 더 큰 단위의 데이터 세트로 데이터를 취합하는 것도 이러한 데이터 상의 미세한 오류를 제거할 수 있는 또 다른 방법이다.

예를 들어, 하나의 특정 쿠키는 동일한 웹사이트에서 한 번에 100회의 디스플레이 노출을 수신 할 수 있다. 이 경우, 이것이 일시적 오류여서 하나의 노출로 취급할지 아니면 실제로 100개의 노출이 있었는지 여부를 결정해야 한다. 탐지되지 않을 경우 실제 데이터를 분석할 때 혼란을 초래할 수 있는 잠재적인 특이점을 항상 염두에 두어야 한다.

Q3: 데이터가 얼마나 다양한가?

사용할 수 있는 데이터 소스가 많을수록, 그리고 그 소스가 다양할수록 좋다. 다양한 소스에서 가져온 데이터는 모두 관련성이 있는 한 고객의 습관과 행동해 대해 보다 종합적인 관점을 제공하기 때문이다.

단일 데이터 소스를 사용하면 데이터가 매우 제한적이기 때문에 아무런 성과를 얻을 수 없다. 구매 내역, 고객 프로필 정보, 검색 패턴(브랜드 및 외부 웹사이트 공히), 캠페인 데이터 등의 다양한 소스를 추가함으로써 데이터를 보다 다면적으로 이해할 수 있다. 그러면 마케팅 데이터를 훨씬 더 자세하게 분석하고 어떤 조치를 취해야 할지에 대한 인사이트를 얻어 캠페인을 지속적으로 최적화할 수 있다.

Q4: 새로운 데이터를 얼마나 빨리 머신러닝 모델에 투입할 수 있는가?

머신러닝은 유용한 데이터 세트를 선택할 수 있는 가장 빠르고 효과적인 기법이다. 그러나 머신러닝을 포함한 여타 인공지능(AI) 모델들은 모두 투입하는 데이터 품질만큼 성과를 낸다. 따라서, 머신러닝 파이프라인에 데이터를 투입하기 전에 앞서 제기한 세 가지 질문에 대해 충분히 만족할 만한 답변을 갖고 접근해야 한다.

데이터 품질을 어느 정도 정제했다면, 본질적으로는 속도가 중요하다. 빠른 속도로 처리하지 않으면 데이터 호수에 병목현상이 생겨 데이터의 최신성을 훼손하고 효과를 반감시키게 된다. 즉, 테스트를 위해 머신러닝 파이프라인에 얼마나 빨리 데이터를 공급할 수 있는지가 관건이다.

머신러닝 모델을 선택할 때 중요하게 고려해야 할 또 다른 성능은 유연성, 그리고 규모를 손쉽게 확대하고 축소할 수 있는 확장성이다. 향후 비즈니스가 빠른 속도로 성장할 때에도 제대로 활용할 수 있는 인공지능 모델이나 솔루션을 선택해야 한다.

데이터는 효과적인 마케팅 전략 구축에 없어서는 안될 핵심 요소이지만 최적의 데이터를 올바른 방식으로 다루어야 의미가 있다. 앞서 소개한 네 질문에 대한 답을 찾는 과정에서 실제로 유용한 데이터를 분석함으로써 효과적인 마케팅 전략 개발에 도움되는 당장 적용 가능한 인사이트를 얻을 수 있을 것이다.