호랭이 분석가

Dask #0. 대스크 시작하기 본문

Python/Dask

Dask #0. 대스크 시작하기

데이터호랑이 2022. 4. 7. 06:07
반응형

1. Dask 설치

Dask는 파이썬을 기반으로, Pandas를 사용하는 데이터 분석가, 엔지니어는 쉽게 사용할 수 있도록 구현되어 있으며 대량의 데이터를 다루는데 특화되어있습니다. 

 

# 전체 설치
pip install "dask[complete]"

 

# 부분 설치 
pip install "dask[array]"       
pip install "dask[dataframe]"  
pip install "dask[diagnostics]" 
pip install "dask[distributed]"

 

Dask는 pip로 설치 및 제거가 가능하기에 Spark와 비교하였을 때 설정과 관리가 매우 용이한 장점이 있습니다.

아래 링크에는 conda 설치법과 소스를 공유하고 있으니 참고하면 됩니다.

 

 

Install Dask — Dask documentation

.rst .pdf to have style consistency -->

docs.dask.org

 

 

2. 시각화 설치

Dask는 Tensorflow와  delayed를 사용하여 DAG라는 개념을 사용합니다.

 

DAG 시각화

 

DAG 시각화 이미지처럼 데이터의 흐름을 시각화하기 위하여 graphviz 라이브러리를 설치해야 합니다.

저는 Mac 환경이기 때문에 brew를 사용하여 설치합니다.

 

brew install graphviz

 

Linux, Window 사용자께서는 아래의 링크를 참조하여 설치하시면 됩니다.

 

 

Download

Graph Visualization Software

graphviz.org

 

라이브러리가 설치가 되었다면 pip를 사용하여 파이썬에 설치를 해줍니다.

 

pip install graphviz


이로써 Dask를 시작할 준비가 되었습니다.

 

Comments