Analysis of Easypay Users
대회소개
2017년 기준, 국내 일평균 약 1400건의 결제가 간편결제로 이행되며, 그 금액은 500억원에 육박한다고 한다. 매년 간편결제 사용률의 증가 추세가 약15%임을 감안한다면 2년이 더 흐른 지금의 사용률은 훨씬 증가했다고 예측할 수 있다.
이렇게 급증하는 사용자탓에 많은 간편결제 회사들은 고객을 유치하기 위해, 수많은 프로모션과 마케팅 정책을 쏟아낸다.
그러나 그들이 보유한 데이터의 가장 큰 단점은 타회사의 고객 정보를 알 수 없다는 것이다.
한 회사의 데이터만으로는 모집단을 대표하는 분석을 시행하였다라고 볼 수 없다.
본 대회에서 주어진 데이터는 각 패널의 결제내역을 포함하고 있어, 다양한 간펼결제에 대한 데이터가 모두 들어있었다.
따라서 우리팀은, 이 패널 데이터를 이용하여 간편결제 유형별로 사용자를 분류하고 각각의 특성을 파악하였다. 뿐만 아니라, 이를 바탕으로 각 사용자 유형별로 알맞는 프로모션을 제안하였다.
KEY Points
대회에서 제공된 데이터는 총 3종류로 나눌 수 있다.
- 기본 인적사항 정보
- 사용 앱에 대한 정보
- 결제 내역에 대한 정보
위 데이터를 최대한 활용하여 원하는 결과를 이끌어 내기 위해, 아래 제시한 핵심 문제들을 바탕으로 분석을 젠행하였다.
첫 번째: 패널의 편향성 조정
EDA를 해보면서, 패널의 불균형을 몇가지 발견하였다. 불균형성은 데이터 수집 과정이 원인이라 볼 수 있다. 이 데이터는 사람들이 ‘마크로밀 엠브레인’회사에 개인 정보 수집 동의를 하여 패널로 등록되면, 회사로부터 소정의 대가를 지급받는 형식으로 만들어진다.
따라서, 정보 제공을 원하지 않거나 소정의 대가에 관심이 없는 사람들은 패널이 되지 않을 것이다. 실제로 남성의 비율이 여성의 비율보다 현저히 낮았고 (4:7), 50대 이상의 패널은 극히 드물었다.
이를 보정해주기 위해, 분석 대상을 20~50세로 한정하였고, 성별 및 나이의 분포는 2017 대한민국 인구총조사를 바탕으로 샘플링하여 조정했다.
소득분포는 대한민국 전체의 분포와 거의 흡사하게 나와 그대로 사용하였다.
두 번째: 간편결제 사용자 분류
1) 간편결제의 분류
사용자를 구분하기 위해선 우선 간편결제을 정확히 세분화해야한다고 판단하였다. 따라서, 국내 총 30여종의 간편결제 서비스를 통상적인 방법에 따라 크게 4가지의 유형으로 분류하였다.
- 단말기 기반 간편결제 ex) 삼성페이
- 카드사 기반 간편결제 ex) 앱카드
- 은행 기반 간편결제 ex) 각 은행 앱
- 플랫폼 기반 간편결제 ex) 네이버 페이, 카카오 페이
2) 사용자 분류
데이터 수집기간이 꽤 길기 때문에, 한번 사용해본 패널을 해당 간편결제 서비스의 사용자로 판단하기엔 무리가 있었다.
- 따라서, 우리팀은 각 간편결제 서비스 별로 사용자를 Heavy User, Middle User, Light User 총 3단계로 분류하기로 하였다.
Heavy User들은 해당 간편결제 사용자들의 특성을 명확히 보여주고, 반대로 Light User는 비사용자들과 큰 차이가 없을 것이라 생각했기 때문이다.
그렇다면 문제는 무엇을 기준 사용자를 3단계로 나눌지였다.
- 해당 서비스로 결제한 빈도가 높은 사용자가 Heavy-User이다.
- 해당 서비스로 결제한 금액이 큰 사용자가 Heavy-User이다.
팀원들과의 많은 토의 끝에, 금액은 소득에 따라 그 기준이 다르기에, 빈도를 기준으로 Heavy User를 결정하기로 하였다. 또한, 단순 빈도가 아닌 그 비율을 사용하여 개인간 편차를 더욱 완벽히 보정하기로 하였다.
\[=\frac{해당\;서비스로\;결제한\;횟수 }{전체\;결제\;횟수}\]
세 번째: 오프라인/온라인 결제의 특성 차이
오프라인과 온라인 모두 간편결제가 활발히 일어나고 있다. 문제는 그 둘의 특성이 너무 다르기 때문에, 통합하여 분석한다면 결론에 오류가 발생할 수 있다는 것이다. 따라서, 우리팀은 두개를 나누어 분석하기로 결정하였고, 각 특징에 대해 다음과 같은 가설을 세웠다.
1) 오프라인 결제는 ‘위치/장소’라는 주요 변수를 수반한다. 결제하고자 하는 매장에서 해당 간편결제 서비스를 제공해야하며, 상대적으로 도심에 위치할 수록 사용가능할 확률이 높다.
- 구글 Geocoding을 사용하여, Heavy User들의 결제 위치를 살펴보자.
2) 온라인 결제는 시간 및 장소의 제약이 존재하지 않는다. 대신 휴대폰 및 컴퓨터를 통해 쇼핑을 하고 결제하는 만큼 전자기기 사용률과 상관관계가 있을 것이다. 또한, 오프라인 결제보단 플랫폼 기반의 간편결제 이용률이 높을 것이다.
- 사용하는 어플 및 사용 시간을 같이 살펴보아, heavy user들의 특성을 찾아보자.
네 번째: 중요 변수 추출
갖고있는 데이터엔 약 1000개의 변수들이 있으며, 이 중 명목형 변수들을 모두 encoding하면, 그 수가 10000개는 족히 넘었다. 이 많은 변수들을 모두 사용하는 것은 불가능하고 의미도 없기에, 1차적으로 변수를 추출하여 사용하기로 하였다.
1) Random Forest Variance Importance
특성 분석에 활용할 변수를 1차적으로 추출하기 위해선 Random Forest기법의 Variance Importance를 사용하였다. Random Forest기법은 Bagging의 대표적인 알고리즘으로 사후적으로 중요한 변수를 추출해주는 기능을 갖는다. 참고
각 간편결제 서비스 별로 Heavy User를 분류하는 RF모델을 만들었으며, 이를 통해 약 20개의 중요 변수를 추출하였다.
- 모델의 F-1 Score는 약 0.7로 관찰 데이터임을 감안한다면, 꽤나 높은 예측력을 보임을 알 수 있다. 즉, 이 모델로 뽑은 중요 변수도 높은 신뢰도를 갖는다고 볼 수 있다.
2) Feature Selection with Association Rules
어쩌면 이부분이 이번 프로젝트의 가장 중요 포인트이자, 수상을 할 수 있었던 이유이기도 하다. 우리팀은 각 서비스 사용자별 특성을 어떻게 명확히 잡아낼지 고민하다 다음과 같은 아이디어를 얻었다.
연관성 분석의 Confidence는 각 Node가 얼마나 강하게 연관되어 있는지 보여준다. 이를 이용한다면 Heavy User들의 특성을 알아낼 수 있지 않을까?
이 아이디어를 바탕으로 Confidence Level이 0.7이상인 Node만으로 AR모델을 구축하였고, 이를 통해 각 서비스 사용자별 특성 및 잠재변수까지도 파악할 수 있었다.
발표자료
개선 방향
1) 데이터로 인한 아쉬움
-
보안상의 이유로 아이폰 유저들의 결제 및 앱 사용 기록은 수집되지 않았다.
아이폰은 상대적으로 젊은 층이 많이 사용하는 만큼, 아이폰 사용자의 데이터가 확보된다면 더욱 풍성한 분석을 할 수 있었을 것 같다.
-
오프라인 결제의 경우, 그 위치가 위도 및 경도로만 제공되어 상세한 분석을 진행하기 어려웠다.
위도 경도 뿐만 아니라, 그 매장에 대한 정보가 더 깔끔하게 제공된다면 오프라인 결제도 그 유형별로 잘 분석할 수 있을 것 같다.
2) 패널 데이터의 속성 반영
- 패널 데이터는 한 사람의 행동이 시간에 따라 반복 측정된 속성이 있다. 따라서, 각 데이터가 독립이라 말할 수 없다.
이러한 속성을 반영하여 분석을 진행하지 못한 점이 아쉽다. 앞으로 longitudinal data를 분석하는 법에 대해 더욱 공부해봐야할 것 같다.
참고
- Association Rules를 이용하여 중요 변수를 선택하는 아이디어는 팀원들과의 고민으로 도출한 것이지만, 아이디어에 대한 근거를 찾기 위해 공부해보니 이와 관련된 논문을 찾을 수 있었다. [논문 원문]