• 도메인 지식이 결여된 인과 추정이 위험한 이유

    시작하며 간혹 ‘데이터 분석가에게 도메인 지식이 필요한가?’ 에 대한 질문을 받거나 관련된 논의글을 보곤 합니다. 전 도메인 지식이 필요할 뿐만 아니라 도메인 지식이 없는 상태에서 데이터 분석을 하는 것은 위험하다는 입장입니다. 특히, 분석의 목적이 인과 추론인 경우에는 더욱 그렇습니다. 이번 글에서는 가상의 사례를 통해 그 이유를 설명할까 합니다. 다음과 같은...


  • PK를 당한 유저는 게임에서 이탈할까?

    0. 시작하며 ‘PK (Player Killing)’ 는 말 그대로 온라인 게임 (특히, MMORPG) 에서 다른 캐릭터를 공격하여 죽이는 행위를 의미합니다 (PK에 대한 좀 더 자세한 내용이 궁금하신 분은 https://namu.wiki/w/PK 를 참고하시기 바랍니다). 그동안 ‘PK’와 관련해서 다양한 찬반 논란이 있어왔습니다. ‘Killing’ 이란 행위 자체가 갖는 폭력성 때문에, PK를 게임에서 허용하는 것은 바람직하지...


  • 게임 고객 LTV 추정하기

    배경 일전에 앱 마케팅 분석 소개와 더불어, 데이터센터 내에 다양한 게임 활동 로그를 활용한 고도화된 모바일 마케팅 지표를 1편과 2편에 걸쳐 소개 드렸었는데요. 오늘은 그 이후에 진행한 작업으로 게임 고객의 LTV 지표를 개선한 내용에 대해 소개 드리려고 합니다. LTV 란? 고객 생애 가치를 의미하는 LTV(Life Time Value)란, 어떤 서비스를 이용하는...


  • 2019 빅콘테스트 후기

    시작하며 그 동안 저희 블로그를 꾸준히 보셨던 분은 이미 아시겠지만 엔씨소프트에서는 2017년부터 외부에 있는 데이터 분석가들을 대상으로 한 데이터 분석 경진 대회를 매년 개최해왔습니다. 2019년에는 빅콘테스트라고 하는 한국정보화진흥원과 빅데이터포럼에서 공동으로 주최하는 데이터 분석 경진 대회에 공동 주관사로 참여하여 ‘기대 이익을 고려한 고객 이탈 예측’ 이라는 주제로 대회를 진행했습니다. 빅콘테스트는 올해로...


  • 데이터 분석을 통해 하둡 시스템 개선하기 #2

    앞선 포스팅(데이터 분석을 통해 하둡 시스템 개선하기 #1)에서 데이터 분석을 통한 하둡 시스템 개선 프로젝트의목적과 그 첫번째 주제인 capacity scheduler를 위한 큐별 자원 할당 비율 을 최적화하는 분석을 살펴보았습니다. 이번 포스팅에서는 본 프로젝트의 두번째 주제인 데이터웨어하우스 테이블 구조 최적화와 두 분석의 결과를 실제 적용하여 검증한 내용을 소개하겠습니다. 3. 데이터웨어하우스 테이블...