
[python] 대용량 csv 불러오는 패키지 dask 간단 리뷰
·
Programming/Python
목차 1. Dask란? Dask는 Python 라이브러리 중 하나로, 라이브러리 기능 면에서는 Apache Spark와 비슷하지만 numpy, pandas와 긴밀하게 연결되어있어서 Python 사용자들이 spark보다 빠르고 쉽게 활용한다. 2. dask가 빠른 이유 dask는 가상 데이터프레임을 쓰기 때문에 pandas 데이터프레임과 비슷한 기능을 제공하지만 실제로 모든 데이터가 메모리 상에 로드되어있는 것이 아니라 하나 이상의 파일 또는 데이터베이스에 존재한다. 그렇기 때문에 메모리 크기와 관계 없이 엄청나게 큰 csv 파일을 하나의 가상 데이터 프레임에 로드할 수 있다. 또한 dask는 대량의 데이터 분석 작업을 돕기 위해 작업 스케쥴러를 제공한다. 하나의 작업을 여러개의 쓰레드, 프로세스, 노드 ..