일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 대스크
- 인자 힌트
- 검색
- 모험
- 조건문
- Python
- Compute
- dask
- Docker
- UDF
- 파라미터 힌트
- Ai
- 퓨샷
- Cognitive Search
- 인컨텍스트 러닝
- 반복문
- AI 동화
- Cognitive Service
- 제로샷
- GPT
- 아기동화
- 도커
- 프롬프트 튜닝
- 토끼
- 파이썬
- Redshift
- FOR
- Azure
- 동화책
- 컨텍스트 매니져
- Today
- Total
목록대스크 (5)
호랭이 분석가
1. 대스크 데이터 프레임 사용 데이터 : NYC Flights Data ( 뉴욕 3개 지역 공항에서 출발하는 항공편 ) import urllib import tarfile # 뉴욕에서 출발하는 항공편 데이터 다운로드 url = "https://storage.googleapis.com/dask-tutorial-data/nycflights.tar.gz" filename, headers = urllib.request.urlretrieve(url, './nycflights.tar.gz') # 압축 해제 코드 with tarfile.open(filename, mode='r:gz') as flights: flights.extractall('data/') api로 제공되는 데이터를 다운로드하여줍니다. 만일, 아래와..
1. 복잡한 DAG 생성 실무에서 사용하는 복잡한 로직과 비교할 수 없지만 compute()와 persist()를 비교하기 위해서 복잡한 DAG를 생성합니다. import dask.delayed as delayed from dask.diagnostics import ProgressBar def add_two(x) : return x + 2 def sum_two_numbers(x, y) : return x + y def multiply_four(x) : return x * 4 data = [1, 5, 8, 10] step1 = [delayed(add_two)(i) for i in data] step2 = [delayed(multiply_four)(j) for j in step1] total = delaye..
1. DB 데이터 불러오기 ( Redshift ) 업무에서 사용하는 각종 DB로부터 데이터를 불러와 작업하는 방법을 알아보겠습니다. 기본적으로 Redshift에서 데이터를 불러오는 방법을 소개하나, 응용하여 다른 종류의 데이터베이스로부터 데이터를 불러올 수 있습니다. # Redshift 연결 정보 username = 'dataiger' password = 'dataiger' host = 'dataiger-redshift:5439' database = 'dataiger' connection_string = f'postgresql://{username}:{password}@{host}/{database}' 위의 코드처럼 데이터베이스의 정보를 입력해줍니다. 그리고 다른 종류의 데이터베이스를 사용하신다면 pos..
1. Delayed Delayed 함수를 비교하기 위하여 파이썬 함수와 비교하면서 보겠습니다. # 기본 함수 from time import sleep def inc(x) : sleep(5) return x + 1 def add(x, y) : sleep(5) return x + y %%time x = inc(1) y = inc(2) z = add(x, y) 파이썬에서는 x > y > z 순으로 순차적으로 실행하기 때문에 15초가 걸립니다. import dask.delayed as delayed @delayed def inc(x) : sleep(5) return x + 1 @delayed def add(x, y) : sleep(5) return x + y Dask의 delayed 함수를 사용하기 위하여 데코..
1. Dask 설치 Dask는 파이썬을 기반으로, Pandas를 사용하는 데이터 분석가, 엔지니어는 쉽게 사용할 수 있도록 구현되어 있으며 대량의 데이터를 다루는데 특화되어있습니다. # 전체 설치 pip install "dask[complete]" # 부분 설치 pip install "dask[array]" pip install "dask[dataframe]" pip install "dask[diagnostics]" pip install "dask[distributed]" Dask는 pip로 설치 및 제거가 가능하기에 Spark와 비교하였을 때 설정과 관리가 매우 용이한 장점이 있습니다. 아래 링크에는 conda 설치법과 소스를 공유하고 있으니 참고하면 됩니다. Install Dask — Dask doc..