airflow data pipeline
-
airflow를 이용하여 bigquery에 공공 API 데이터 적재 파이프라인 생성기Data engineering/Airflow 2023. 9. 14. 14:24
드디어 필자는 airflow에 공공 API를 이용하여 빅쿼리에 적재하는 파이프라인을 성공시켰다!!!!!!!! 이어서 쿼리를 통해, 필요한 정보만 뽑아오는 작업을 통해 머신러닝이나, 시각화에 필요한 데이터들로 만들어 보겠다. (나중 예정) 먼저, 아주 간단한 파이프 라인을 그려보았다. 1. 서울시 부동산 실거래가 정보에 대한 공공데이터에서 openAPI를 설정한다. (url, service key 등 설정 필요한 것들 미리 준비) 2.먼저, 빅쿼리에 컬럼과 타입만 지정한 빈테이블을 만들어 준다. 그리고 빅쿼리의 경우, insert 보다는 테이블을 삭제하고, 새로 적재하는 것이 더 낫기 때문에(비용 적인 측면), 삭제 로직을 넣는다. 3. 쿼리를 통한 삭제 로직이 이루어지지 않으면 -> 오류로 인해 중지되고..