0. 시작하며
최근 대안 데이터, 대안 신용평가에 대한 이야기가 심심치 않게 들려오고 있다. 마이데이터 사업도 점점 커져가고 있는 시점에 나의 작은 거래 이력, 나의 휴대폰 어플 사용 이력 등 모든 것이 데이터가 되어가고 있다. 오늘은 대안 데이터에 대해 알아보고자 한다.
1. 대안 데이터란?
대안 데이터(Alternative data)는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적 데이터 소스를 사용해 수집한 정보를 말한다.(출처 : databricks)
대안 데이터를 사용하면 업계의 평범한 데이터 소스가 제공할 수 있는 범위를 벗어난 인사이트를 얻을 수 있다. 예를 들어 금융권에서의 금융 이력이나 단순 거래이력만을 사용하는 것이 아니라 SNS 사용 이력, 쇼핑몰 구매 이력 등을 통해 분석을 할 수 있다면, 그것을 대안 데이터라고 할 수 있는 것이다.
2. 대안 데이터의 유형
일반적인 대안 데이터라고 한다면, 아래와 같은 데이터 유형이 있다.
- 위성 데이터(지리적 정보 데이터)
- 모바일 데이터
- 센서 데이터
- 웹 로그 데이터
그렇지만 위 데이터 말고도 업계에서 다루지 않는 데이터를 사용하나면, 그것을 대안 데이터라고 말할 수 있다. 이커머스 업계에서 지리적 위치정보나 신용카드 거래내역을 데이터로 사용한다면 그것이 대안 데이터가 될 수 있다. 그래서 아래와 같은 데이터도 대안 데이터로 많이 사용한다고 한다.
- 이메일 수신 이력
- POS(Point-of-sale) 트랜잭션
- 소셜 미디어 게시물
- 온라인 탐색 활동 이력
- 제품 리뷰
- 가격 추적기
- 날씨와 미세 기후
- 항공 및 선박 추적 데이터
3. 대안 데이터의 수집 방법
대안 데이터를 수집하는 방법은 크게 두 가지로 나뉠 것 같은데, 오픈 데이터의 경우와 비오픈 데이터의 경우로 나누어 말할 수 있을 것 같다.
오픈 데이터의 경우, 오픈 API 정보를 불러오거나 HTML 파싱의 방법으로 스크래핑 해 데이터를 수집할 수 있다. 이와 같은 오픈 데이터는 고객을 key 값으로 하기보다, 관련 정보를 연결하는 용으로 많이 쓰인다. 예를 들어 고객이 서울시 성동구에 산다면, 성동구와 관련된 지리적 정보를 가져와 연결하여 그 고객의 특성을 파악하는 것이다.
비 오픈 데이터의 경우, 마이데이터 사업자에 한해 데이터를 연결하여 사용하곤 한다. 이 때는 고객으로부터 마이데이터 수집 이용 동의를 받아야 하므로 수집이 쉬운 편은 아니다.
4. 대안 데이터의 활용
한국에서 대안 데이터를 가장 열심히 활용하고 있는 분야는 아마 금융권의 "대안 신용평가" 일 것이다.
기존 신용평가는금융 거래 이력만을 가지고 신용을 평가한다. 신용카드 대금납부이력, 채무이력 등을 확인하며 신용등급을 결정하는 것이다. 그러나 그러한 신용정보가 적은 대학생이나 사회초년생, 소회계층 등은 신용평가 이력이 없어서 금융 서비스의 사각지대에 놓인 상황이다. 그런 신용정보 이력이 적은 씬파일러(Thin Filer)들을 위한 대안 신용평가모형을 만들기 위해서 여러 핀테크 사업들이 뛰어들고 있는 중이다. 이들은 비금융 데이터인 네트워크 사용이력, 휴대폼 요금 납부 이력, 어플리케이션 사용 이력 등을 통해 신용평가 모형을 만들고 있다.
또한 해외에서는 대안데이터를 이용하여 주가 예측을 하는 곳도 심심치않게 있다고 한다. 우리나라에는 자세한 뉴스는 아직 나오지 않고 있지만 채용 시장을 보아도, 증권사에서 자연어처리 관련 연구원을 뽑는 등 대안데이터를 활용하기 위해 인력을 모으는 것도 볼 수 있으며, 관련 논문도 조금씩 나오는 듯 하다.
5. 마치며
마이데이터, 대안 데이터와 같은 산업을 보면서, 정말로 데이터가 점점 중요해지는 시대에 살고 있다고 느끼며 나의 행동들이 전부 데이터로 변환될 수 있다는 것을 실감하고 있다. 그와 동시에 데이터가 산업의 좋은 방향으로 쓰인다면 데이터 업계에 종사하는 나로써는 참 뿌듯할 것 같다. 좋은 데이터를 좋은 방향으로 사용할 대한민국 시대를 기대하고 싶다.
Reference
https://www.databricks.com/kr/glossary/alternative-data
https://www.digitaltoday.co.kr/news/articleView.html?idxno=243032
'Study > etc' 카테고리의 다른 글
[XAI] Integrated Gradient 에 대하여 (0) | 2023.01.14 |
---|---|
[IT] NVIDIA 그래픽카드(GPU) 종류 간단정리 (0) | 2022.06.26 |
[GCP]Computing Engine에 Python 분석 환경 구성하기(2) (0) | 2022.01.22 |
[GCP] Computing Engine에 Python 분석 환경 구성하기(1) (0) | 2022.01.16 |
[GCP] Google Cloud Platform Compute Engine VM 생성하기 (0) | 2021.12.19 |