Study

    [Trend] 대안 데이터(Alternative data)란?

    0. 시작하며 최근 대안 데이터, 대안 신용평가에 대한 이야기가 심심치 않게 들려오고 있다. 마이데이터 사업도 점점 커져가고 있는 시점에 나의 작은 거래 이력, 나의 휴대폰 어플 사용 이력 등 모든 것이 데이터가 되어가고 있다. 오늘은 대안 데이터에 대해 알아보고자 한다. 1. 대안 데이터란? 대안 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적 데이터 소스를 사용해 수집한 정보를 말한다.(출처 : databricks) 대안 데이터를 사용하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있다. 예를 들어 금융권에서의 금융 이력이나 단순 거래이력만을 사용하는 것이 아니라 SNS 사용 이력, 쇼핑몰 구매 이력 등을 통해..

    [XAI] Integrated Gradient 에 대하여

    0. 들어가며 요즘은 단순 연구에서 뿐만이 아닌 실제 현업에서 설명가능한 AI, XAI를 많이 요구하고 있는 듯 하다. AI의 신뢰성과 결과의 이유가 궁금하기 때문인 것 같다. 또한 금융사에서도 AI 결과를 고객에게 설명하기 위해서도 XAI를 사용한다고 한다. LIME이나 SHAP 등 XAI를 위한 활발한 연구가 이루어지고 있으며, 그에 대한 논문도 나오고 있지만 여전히 어려운 연구 과제 중 하나가 XAI라고 한다. 오늘은 어려운 이유와 함께 XAI에서 가지고 있는 문제점을 보완하기 위해 태어난 Integrated Gradient에 대해 설명해 보려고 한다. 1. 개요 0. 들어가며 에서도 말했지만 XAI를 위한, 그 중에서도 input feature가 모델의 output에 얼마나 영향을 끼쳤는지 나타내..

    [Recommand] 추천시스템 성능 평가 방법 - MAP, nDCG, MRR

    최근에는 어떤 어플리케이션에서든 추천시스템을 사용하는 듯 하다. 패션, 커머스는 물론이거니와 증권, 금융사, 교육 쪽에서도 추천시스템은 화두가 되고 있다. 추천 시스템 알고리즘이 점점 뜨고 있는만큼, 추천시스템이나 검색어시스템 안에서 모델의 정확성을 판단하는 것도 중요하다. 특히나, 랭킹 기반으로 추천할 때 평가할 수 있는 지표에 대해서 오늘은 이야기해보려고 한다. 1. 예측값의 정답 여부 정의 지표에 대해 이야기 하기에 앞서, 정답 여부에 대한 정의가 어떤 것이 있는지 한번 생각해보고자 한다. 앞으로 설명할 지표에서는 정답여부를 관련있다(Relevant)라고 말하고 있다. 커머스 분야의 경우 관련있다의 정의는 무조건 구매 여부를 가지고 판단할 수 는 없다. 사용자마다 정의하기 나름인데, 보통 클릭여부,..

    [CRM] 디지털 멀티 채널 마케팅 분석 방법 3가지

    최근에는 이메일, 전화, 앱, 웹, 문자 등 다양한 채널로 마케팅을 시행한다. 단순 한가지 방법으로만 마케팅을 하지 않더라고 다양한 채널을 엮어서 마케팅을 진행하는 멀티 채널 마케팅, 또는 크로스 채널 마케팅도 진행하고 있다. 오늘은 그 중에서 디지털 마케팅에 대해 이야기를 해볼까 한다. 디지털 마케팅의 매력은 영업점이나 전화 마케팅 같이 애매한 답변보다 정확한 측정과 분석이 가능하다. 그리고 시간에 따라 나타나는 결과를 확인할 수 있기 떄문에 보는 재미가 있다는 생각도 든다. 오늘은 한 블로그 글을 참고하여, 디지털 마케팅의 멀티 채널에 대한 분석 방법에 대해 글을 적어보려 한다. 구글 어널리스트 솔루션 안에 있는 기능으로 추정된다. 1. 기여도 분석(Attribution Analysis) 기여도 분석..

    [Process Mining] Process Mining이란?

    1. 서론 현대에는 수많은 데이터가 분출되고 있고, 더욱이나 사람들이 웹이나 앱, 모바일을 통해서 자신이 원하는 작업을 수행하고 행동하는 경우가 증가하고 있다. 한 사람의 하루 행동 여정, 또는 하나의 작업을 수행하는 과정 등 모든 과정 가운데 데이터는 존재하고 그것은 수많은 가치를 지니고 있다. 오늘 집중해서 살펴볼 것은 그러한 과정을 분석하고 의사결정하는 Process Mining이다. 2. Process Mining이란? Process Mining과 Data Mining의 차이점 간단히 말한다면, Process Mining은 event data와 process, process models 간의 관계를 파악하는 것이다. 이벤트 로그 데이터로부터 프로세스를 도출하여 이를 시각화하고, 그 간의 밀접한 관..

    [CRM] 01. CRM, CRM Marketing 에 대해서

    최근까지도 개인화 추천 관련된 AI 프로젝트를 진행하면서 마케팅에 대해 점점 알아보고 이해하는 경우가 생겼다. 마케터들이 어떤 고민들을 안고 있는지, 고객 관리를 위해 어떤 지표들을 삼고 있는지 등... 찾아보고 듣다 보니 마케팅의 분야가 참 넓고 다양하다는 생각을 하고 있다. 자사의 제품을 저비용으로 최대 이익을 얻으며 고객에게 판매하는 방법에 대해서 끊임없이 고민하고 생가하는 그들. 이들을 돕거나 이들을 대신할 수 있는 AI 모델을 개발하는 것은 어떨까 해서 시작하게 된 마케팅 공부. 마케팅과 관련된 "프로세스 마이닝", "디지털마케팅" 등에 대해서도 앞으로 차차 업로드 해 볼 예정이다. 오늘은 간단하게, CRM 마케팅에 대해서 알아보고자 한다. 1. CRM 마케팅이란? CRM의 정의에 대해서 알아보..

    [IT] NVIDIA 그래픽카드(GPU) 종류 간단정리

    AI 업계에 일하면서, 딥러닝 학습 속도를 위해서는 GPU가 반드시 필요하다는 걸 알고 있으면서 그 종류에 대해서 자세히 알고 있지는 않았다. 그냥 그래픽카드가 GPU이고, 게임이나 디자인 하는데 반응속도가 빠른걸 사기 위해서는 그래픽 카드가 필요하구나, 근데 딥러닝에서도 쓰이네? 정도로 알고 있었더랬다. 그래서 남들이 "V100? 3080? 우와~" 하는 말들에 감흥을 못느끼고 있었다. 그러다가 이제는 좀 알아야 하지 않을까 싶어서 찾아보는데, 명확하게 정리된 문서는 너무 찾기 어려웠다. 그래서.. 내 위주로라도 정리하고 찾아본 내용을 여기에 적어보려고 한다. 1. NVIDIA GPU 종류 NVIDIA에서는 GPU 종류를 크게 3가지로 나누는 듯 하다. 데스크톱 용 GPU 모바일 용 GPU 워크스테이션..

    [GCP]Computing Engine에 Python 분석 환경 구성하기(2)

    ▼이전 발행글 확인하기 [GCP] Computing Engine에 Python 분석 환경 구성하기(1) 저번 글에서는 Google Cloud Platform에 대한 설명과, Computing Engine 인스턴스를 생성하는 것에 대해서 포스팅했다. ▼ 이전 글 보러가기 [GCP]Google cloud platform 가입하기 저번 포스팅에서 구글 클라우드.. everywhere-data.tistory.com 이전 포스팅에서는 vm에서 파이썬과 주피터노트북을 설치하고 config파일 생성 및 설정하는 법꺼지 설명했다. 이번 포스팅에서는 외부 ip할당과 방화벽 규칙을 통해 jupyter notebook 서버 접근을 설정해서 jupyter notebook을 외부ip를 통해 확인하는 것까지 볼 예정이다. 이제..