오늘도 지난주와 마찬가지로 스포티파이에 관한 주제로 위클리 프로젝트를 이어나가려 한다. 이번에는 스포티파이의 전반적인 서비스에 대해서가 아닌, 스포티파이가 독보적으로 잘하는 '큐레이션'에 대해 얘기를 해보려 한다. 스포티파이 관련 첫번째 블로그에서 큐레이션에 대해 언급을 한 적이 있는데, 이번에 다시 한 번 짧게 설명을 하고 시작하려 한다.

 

큐레이션에 대해서

 

큐레이션(Curation)은 '작품에 생기를 부여하는 활동'이란 의미를 가지고 있다. 대부분의 영어가 그렇지만 이 단어도 '돌보다', '보살피다'라는 뜻의 라틴어인 큐레어(Curare)에서 유래한다. 사실 이것보다 더 적절한 비유는 바로 미술관 혹은 박물관에서 일하는 큐레이터(Curator)를 생각하면 된다. 큐레이터는 미술관이나 박물관에서 전시할 작품을 고르는 사람을 말하는데, 그들이 전시관의 컨셉과 대중을 고려해서 작품을 선정해서 전시회의 퀄리티를 높여주듯이, 스포티파이의 큐레이션도 고객에게 맞는 작품을 선정해서 추천을 해준다. 하지만 스포티파이의 큐레이션은 대중을 고려한게 아니라, 정말 개인화된 큐레이션 제공함으로써 전 세계 이용자 4억4000만명 모두에게 각각 취향에 맞는 음악을 알고리즘을 통해 선별해준다.

 

스포티파이만의 차별점은 무엇인가?

 

지난 5주간 음원 스트리밍에 대해서 공부를 하면서 느낀점은 상위권에 위치한 음원 스트리밍 서비스의 전반적인 퀄리티는 차이가 거의 없다는 것이다. 여기서 말하는 퀄리티는 UI, 가격, 컨텐츠의 양, 음원의 오디오 품질 등을 말하는 것이다. 따라서, 현재 국내 서비스와 해외 서비스 마찬가지로 차별화를 두기 위해 독점 컨텐츠를 확보하고 있긴 하지만, 아직까지는 독점 컨텐츠에 대한 메리트가 크게 있다고 생각하지 않는다. 결국 대중이 즐겨듣는 초대형 아티스트들은 모든 플랫폼에 제공되기 때문이다. (사실 팟캐스트는 독점 컨텐츠 확보가 매우 큰 의미가 있다. 하지만 오늘은 음원 큐레이션에 대해 얘기할 예정이므로 팟캐스트는 제외하도록 하겠다.)

 

서비스 품질의 차이도 없고, 독점 컨텐츠도 의미가 없으면 유튜브 뮤직, 애플 뮤직, 아마존 뮤직 등 무엇을 사용하든 상관없지 않냐고 물을 수 있다. 하지만 스포티파이는 단순히 음원 청취가 아닌 새로운 음악적 경험을 하게 해준다. 그리고 여기서 말하는 새로운 음악적 경험의 원천이 바로 스포티파이의 '큐레이션'이라고 볼 수 있다. 오늘은 이 '큐레이션'이라는 주제를 통해 스포티파이가 무엇을 통해 '큐레이션'을 더 발전 시킬 수 있는지 생각하고, 발전 요소가 정당한지 확인할 수 있는 데이터가 무엇이 있는지 알아보려고 한다.

 

고객별 스포티파이 큐레이션의 적합성 확인

 

스포티파이의 큐레이션을 통해 고객에게 제공되는 컨텐츠가 적합한지 확인하기 위해서 무엇을 봐야 할까? 여기서 고려해볼 만한 요소는 아래와 같다:

 

  • 고객이 컨텐츠를 좋아하는가
  • 다양한 컨텐츠를 제공하는가
  • 고객이 제공되는 컨텐츠를 모두 쉽게 엑세스 할 수 있는가

 

큐레이션을 통해 고객에게 제공되는 컨텐츠의 적합성을 판단하기 위해 3가지 요소를 정하였다. 그러면 각 요소마다 우리가 볼 수가 있는 지표가 무엇이 있는지 알아보도록 하겠다. 이에 앞서 스포티파이가 어떤 메타데이터를 통해 음원을 분류하는지 알아보겠다. 이에 대한 이해가 있어야 아래 지표에 대한 설명이 충분히 와닿을거라 생각한다. 그렇다면 이제 아래 그림을 통해 대략적으로 어떤 메타데이터를 수집하는지 알아보자.

 

메타데이터 구조

 

 

사실 위 그림은 이해를 돕기 위한 예시이기 때문에 실제로는 훨씬 많은 메타데이터를 수집한다는 점, 그리고 각 메타데이터 항목마다 훨씬 더 많은 데이터가 수집된다는 점을 참고하기 바란다. 아무튼 위와 같이 구성된 음원 메타데이터는 이제 각 고객과 매칭을 시켜주기 위한 정보로 이용이 된다. 예를 들어 아래와 같이 고객의 성향을 추적한 메타데이터가 있다고 생각해보자. 이 고객은 조용한 음악을 선호하며 발라드, K-POP 등을 좋아한다는 점을 알 수 있다. 그리고 스포티파이의 큐레이션은 고객과 음원의 메타데이터를 분석하여 고객에게 좋아할만한 음원/플레이리스트/아티스트/앨범을 매칭 시켜준다.

 

 

조금 빈약한 설명이지만, 어떤 느낌인지는 알 수 있을거라 생각한다. 그렇다면 이제 본격적으로 지표에 대해서 이야기를 나눠보겠다.

 

고객이 컨텐츠를 좋아하는가

 

고객이 컨텐츠를 좋아하는지 판단 할 수 있는 데이터는 워낙 많긴하다. 왜냐하면 큐레이션은 단순히 곡을 제공하는것 뿐만 아니라 플레이리스트, 아티스트와 같이 1개의 곡이 아닌 패키지를 추천하는 경우도 많기 때문이다. 따라서, 고객이 각 음원에 대해서 어떻게 반응했는지도 중요하지만, 플레이리스트와 앨범에 대한 반응을 통해서도 고객의 성향을 파악할 수 있기 때문이다. 어찌됐든 모든 데이터를 다룰수는 없으니, 제일 간단하게 설명할 수 있는 '음원 재생 시간' 데이터를 통해 얘기를 이어나가겠다.

 

지표: 음원 재생 시간

 

여기서 말하는 '음원 재생 시간'은 곡의 길이를 말하는 것이 아니다. 고객이 특정 음원을 재생했을때 곡을 끝까지 다 들었는지, 아니면 중간에 다음곡으로 넘겼는지 등을 얘기하는 것이다. 그런데 무작정 곡을 넘겼다고 해서, 그 곡이 고객에게 적합한 곡이 아니라고 판단 내릴 수 있을까? 그건 또 아니라고 생각한다. 메타데이터적인 요소가 고객과 일치하지만, 고객이 현재 스포티파이를 이용하는 환경에 따라서 고객에게 적절하지 않은 컨텐츠가 될수도 있다. (이어서 작성)

 

다양한 컨텐츠를 제공하는가

 

앞서 얘기했듯이 큐레이션의 궁극적 목표는 고객에게 새로운 음악적 경험을 제공하는 것이다. 그렇기 때문에 큐레이션 알고리즘은 단순히 메타데이터를 통해 고객에게 알맞는 컨텐츠를 제공하는 것만이 아닌, 아직 고객이 탐험하지 않은 영역에 조금씩 발을 들일수 있도록 하는것도 중요하다. 마침 해당 토픽에 대해서 리서치를 하다가 인터넷에서 흥미로운 자료를 발견했다. 참고로 필자가 스포티파이 관련 첫번째 블로그에서 언급한 BaRT(Bandits for Recommendations as Treatments)가 여기서 다시 나온다. (Bandit 알고리즘에 대해 알고 싶다면 다음 링크 참고: Bandit 알고리즘과 추천시스템) 이제 스포티파이의 알고리즘이 어떤식으로 새로운 컨텐츠를 추천하는지에 대해서 아래 그림을 통해 알아보자. 

 

밴딧 알고리즘을 통한 컨텐츠 추천 시스템

 

Bandit 알고리즘에는 두가지 개념이 있다: 수확(Exploit), 탐험(Explore). 스포티파이의 관점에서 수확이라 함은 고객에게 최고로 적절하다고 확신이 드는 컨텐츠를 소개하는 것이다. 그리고 탐험은 고객에게 새로운 컨텐츠 소개를 하여 새로운 경험을 얻게 하는 것이다. 그런데 위에 보면 탐험은 2개의 영역을 차지하고 있다: 1) low certainty-low relevance(낮은 확실성-낮은 연관성), 2) low certainty-high relevance(낮은 확실성-높은 연관성). 두 영역의 차이는 relevance의 정도의 차이인데, 당연히 high relevance에 해당되는 컨텐츠가 훨씬 높은 빈도로 고객에게 추천되지 않을까 추측해본다. 마지막으로 무시(Ignore)는 말 그대로 고객과 관련이 없는 컨텐츠가 확실하기 떄문에 추천 컨텐츠에서 제외된다.

 

그렇다면 다양한 컨텐츠를 제공한다는 뜻은 무슨 의미일까? 위 Bandit 알고리즘을 통해 해석하자면, 나눠진 3개의 영역(explore, explore, exploit)에 해당하는 컨텐츠가 모두 일정 수준 고객에게 노출되어야 한다는 뜻이다. 그렇다면 이 3가지 영역이 골고루 고객에게 노출된다는 것을 어떻게 지표로 표현할 수 있을까? 

 

지표: BaRT Score

 

일단 BaRT Score는 아무런 근거 없는, 필자의 상상속에서 만들어진 지표라는 점 먼저 이해하기 바란다. 스포티파이는 그들만의 지표와 공식이 정해져 있을 것이다. 아무튼 본 지표를 통해 찾아내고자 하는 내용은 아래와 같다:

 

  • Explore 영역이 충분히 고객에게 전달되고, 고객이 긍정적으로 반응하는지 알기 위함
  • 세 영역이 고객에게 골고루 노출되는지 알기 위함

 

먼저 단어가 너무 길기 때문에 아래와 같이 용어를 정의하겠다:

 

  • Explore(high relevance-low cerntainty) = E1
  • Explore(low relevance-low certainty) = E2
  • Exploit = X

 

첫번째로 계산 공식은 아래와 같다:

 

E1 score = (E1 청취 횟수 / 총 E1 제공 횟수) × 100
E2 score = (E2 청취 횟수 / 총 E2 제공 횟수) × 100
X score = (X 청취 횟수 / 총 X 제공 횟수) × 100

BaRT score = (E1 score + E2 score + X score) ÷ 3  (100점 만점 기준)

(수정 해야됨)

 

제공되는 컨텐츠를 모두 액세스 할 수 있는가

 

스포티파이가 보유한 음원 라이브러리는 우리가 인생을 두번 살아도 다 들을 수 없을 정도로 방대하다.

 

 

 

 

+ Recent posts