일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 공부
- 독서
- #테슬라주가
- 책리뷰
- 도서
- 부자
- #미국증시
- #엔비디아주식
- 독서모임
- #엔비디아주가
- 도서리뷰
- 책추천
- #엔비디아관련주
- #미국환율
- 일상
- 돈
- #도서리뷰
- #인공지능
- #메타주가
- #Snp500
- #반도체관련주
- #금리
- #책추천
- #애플주가
- #엔비디아실적발표
- #ai관련주
- 책
- 컨티뉴언
- #미국주식
- #엔비디아
- Today
- Total
기록하는 투자자
데이터 파이프라인 구축에 대한 입문 본문
데이터 엔지니어의 중요한 점은 데이터 파이프라인 구축이다.
툴이 발전하면서 GCP, AWS를 잘 활용하면 파이프라인 구축은 금방된다.
물론 잘못 활용하면 수 많은 데이터를 감당하지 못하고 웹페이지나 앱이 제대로 작동하지 않을 것이다.
그럼 본격적인 입문에 대해 생각해보자.
과거에는 데이터를 컴퓨터에 넣고 웹에서 확인하는 형태였다.
연결관계를 생각해보자.
온라인 데이터 발생 -> 데이터베이스 서버로 데이터가 막 들어간다 -> 데이터베이스 서버에 데이터가 쌓인다. -> 데이터가 웹 상에서 보인다.
웹상에서 데이터를 보이게 하는 과정을 최종 결과라고 할 수 있다.
물론 발생한 데이터를 데이터베이스 서버로 옮기기 위한 작업이 이전에는 엑셀에 입력해서 수기로 데이터베이스에 넣는 방식이 있었겠지만, 그것을 자동화에서 벗어난 영역이니 생각하지말고.
mysql과 같은 특정 데이터베이스와 웹서버와 연결하는 작업을 하면 데이터가 웹에 쌓이게 된다.
저렇게 연결하는 작업에서 일종의 '구축'이란 것을 하는 것이다.
디비서버에 해당하는 포트와 주소를 할당하고 웹에도 할당되어있으면 그것을 디비서버, 웹서버 관련 소스코드(자바)에 하드코딩해서 넣어주고 배포한다.
그러면 운영계에서 디비서버, 웹서버가 연결되고 디비에 수동으로 주소와 포트를 입력하여 접속하면 운영디비에 접속가능하다.
이렇게 연결이 끝나면 웹에서 어떠한 동작(CRUD)에 따른 데이터가 발생할 때마다 운영계디비에 쌓이고 mysql에서 검색이 가능해진다.
- 참고내용을 살펴보자.(참고 : blog.voidmainvoid.net/265)
ETL이라는 단어를 들어봤을 것이다. ETL은 추출(Extract), 변환(Transform), 적재(Load)의 줄임이다. ETL시스템은 하나의 시스템에서 data를 추출하고, data를 변환하여 database나 data warehouse에 적재한다. 레거시 ETL 파이프라인은 보통 배치로 작동하고 큰 덩어리의 data를 특정 시간에 한 공간에 저장하는 작업을 한다. 예를 새벽 12:30에 시스템 트래픽이 낮아질 때 배치가 돌아서 데이터를 모아 적재하는 작업이 있을 수 있다.(=> 이부분이 과거에 내가 했던 작업이다. 윈도우 서버에 배치파일을 만들어놓고 새벽에 돌려서 데이터를 적재하게 하는 것이다. 사람의 작업이 무조건 들어간다.)
반면에, 데이터 파이프라인은 ETL을 서브셋으로 포함하는 광범위한 용어다. 데이터를 한 시스템에서 또다른 시스템으로 옮기는 작업을 뜻한다. 해당 데이터는 transform되는 경우도 있고 안하는 경우도 있다. 또한 실시간성으로 처리하는 것도 있고 배치성으로 처리할수도 있다. 데이터가 지속적으로 흘러서 업데이트되는 경우가 있는데 traffic 센서 모니터링과 같은 경우를 예로 들 수 있다. 데이터 파이프라인을 통해 가져온 데이터는 database나 data warehouse에 쌓지 않는 경우도 있고 혹은 다중으로 데이터를 쌓는 경우도 있다.
'기술과 세상읽기' 카테고리의 다른 글
AWS 신용카드 등록 완료 및 시작 (0) | 2021.03.07 |
---|---|
주제 : 아파치 스파크 입문과 활용 (0) | 2021.03.07 |
비즈니스 경험과 기술을 함께, <비즈니스 머신러닝> (0) | 2021.02.20 |
쌩초보를 위한 데이터 엔지니어 서비스(Amazon QuickSight - BI Service) (1) | 2021.02.14 |
쌩초보를 위한 데이터 엔지니어 용어공부!(A~M) (0) | 2021.02.14 |