일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 공부
- 일상
- #미국주식
- 독서
- 책추천
- #금리
- #Snp500
- #테슬라주가
- #인공지능
- 책리뷰
- #엔비디아주식
- #책추천
- #엔비디아주가
- 부자
- #엔비디아
- #엔비디아관련주
- #미국증시
- #엔비디아실적발표
- 컨티뉴언
- #미국환율
- 도서
- #도서리뷰
- 독서모임
- 도서리뷰
- #애플주가
- 돈
- #반도체관련주
- 책
- #메타주가
- #ai관련주
- Today
- Total
기록하는 투자자
쌩초보를 위한 데이터 엔지니어 용어공부!(A~M) 본문
참조 : towardsdatascience.com/complete-data-engineers-vocabulary-87967e374fad
Aa
ACID — 데이터베이스의 트랜잭션 적용 속성. 원 자성, 일관성, 격리, 내구성
Atomicity — (다단계 작업의) 한 단계가 실패하면 전체 트랜잭션이 실패합니다.
Avro — 소형, 행 지향, JSON 기반, 데이터 형식
Azkaban — LinkedIn의 Hadoop 작업용 배치 스케줄러
Airflow — Airbnb의 프로그래밍 가능한 DAG 기반 작업 스케줄러입니다. 매우 인기있는 Apache 프로젝트
Analytic Function — 행 그룹에서 작동하는 집계 함수
B
Big Data — 기존 시스템으로 처리 할 수 없을만큼 충분히 큰 데이터
BI — 데이터에서 최상의 정보를 얻기위한 기술, 프로세스
Batch Processing — 한 번에 많은 작업 수행, 즉 1 억 개의 레코드로드
BigQuery — Redshift 및 Azure DW와 경쟁하는 Google의 서버리스 데이터웨어 호스
BigTable — Google의 페타 바이트 규모의 NoSQL 데이터베이스
C
Cassandra — 컬럼 스토리지 기능에 널리 사용되는 분산 NoSQL 데이터베이스
CTE — SQL에서 이름으로 참조 할 수있는 결과 집합 캐시
Caching — 향후 재사용을 위해 임시로 데이터 저장
Column Oriented Database — 열 값이 디스크에 연속적으로 저장되는 저장소
Cloud Composer — Google의 Airflow 구현
Cube — 다차원 데이터. 데이터웨어 하우징에 사용되는 용어
Catalog — 관리 및 검색 기능이있는 메타 데이터 구성
Cloud Functions — AWS Lambda와 같은 Google의 서버리스 컴퓨팅 옵션
D
DynamoDB — 페타 바이트 규모의 키-값, AWS의 문서 데이터베이스
Druid — 분산 된 컬럼 데이터 저장소
Drill — 비 관계형, JSON, Hadoop, NoSQL 데이터베이스의 중첩 데이터를위한 SQL
Dremel — Google의 대규모 독점 대화 형 쿼리 엔진
Distributed Processing — 더 빠른 결과를 위해 여러 컴퓨팅 장치에서 작업 및 처리를 분할합니다.
DataFrame — 프로그래밍 언어의 구조와 같은 관계형 데이터베이스 테이블
DW — 비즈니스보고 및 분석을위한 단일 소스 데이터 저장소
DAG — 순환 종속성이없는 종속성 그래프 — 오케스트레이션 엔진에서 사용
Dataflow — Google의 관리 형 데이터 파이프 라이닝 솔루션
Dataprep — Google의 데이터 준비 (정리, 랭 글링 등) 솔루션
Dataproc — Google의 완전 관리 형 Spark / Hadoop 제품
Dashboard — 성과, KPI 등을 추적하기위한 시각화 설정입니다.
Data Dictionary — 데이터 소스의 구조와 사용을 보여주는 심층 메타 데이터
Data Downtime — 데이터가 부분적이거나 오류가 있거나 누락되었거나 기타 부정확 한 시간
Data Mart — 일반적으로 특정 비즈니스 기능을위한 데이터웨어 하우스의 하위 집합
Dimension — 데이터 설명자 또는 분류기
DBRE — 데이터베이스 안정성과 관련된 SRE의 한 분기
Data Custodian — 모든 데이터의 소유자
DataVault — 데이터웨어 하우스 설계 방법론
DBT — SQL 기반 데이터 파이프 라이닝 및 워크 플로우 솔루션
Docker — 컨테이너를 형성하는 OS 수준 가상화
E
Elasticsearch — 사실상의 전체 텍스트 검색 엔진
EMR — AWS의 MapReduce
Enrichment — 더 많은 데이터로 데이터를 강화하는 프로세스
ETL — 소스에서 추출, 변환, 대상으로로드
ELT — 소스에서 추출, 대상으로로드 및 변환
ER Diagram — 데이터베이스 엔티티 간의 관계를 시각화하는 다이어그램
ELK — 사실상의 오픈 소스 애플리케이션 로그 처리 및 모니터링 솔루션
F
Flume — 이벤트 스트림 데이터를위한 대규모 데이터 파이프 라이닝
Flink — 데이터 스트림을위한 분산 처리 엔진
Flat File — 일반적으로 텍스트 또는 이진 파일
Fact — 총 판매량과 같은 비즈니스 프로세스 측정
Failover — 장애가 발생한 시스템에서 작동중인 시스템으로 이동
G
Glue — 대규모 서버리스 ETL, AWS의 데이터 파이프 라이닝 솔루션
Golden Record — 단일 소스 소스
H
Hadoop — MapReduce, YARN 및 HDFS로 구성된 빅 데이터 처리 프레임 워크
Hive — Hadoop 에코 시스템에 저장된 데이터에 액세스하기위한 SQL과 유사한 쿼리 엔진
HBase — Hadoop 위에서 실행되는 비 관계형 분산 데이터베이스
HDFS — Hadoop의 분산 파일 시스템
I
InfluxDB — 매우 인기있는 시계열 데이터베이스
Ingestion — 시스템에 데이터 삽입 (예 : 데이터 수집)
Integration — 여러 데이터 소스를 통합
In-memory — 인 메모리 스토리지, 인 메모리 계산, 즉 디스크가 아님
J
JSON — 인터넷을 통한 사실상의 데이터 전송 형식
K
Kafka — LinkedIn의 분산 스트리밍 프레임 워크
Kinesis — AWS의 관리 형 Kafkaesque 스트리밍 서비스
Kibana — ETK 스택의 모니터링 및 시각화 솔루션
Key-Value Store — 데이터는 구조와 같은 사전 또는 해시 테이블에 저장됩니다.
Kubernetes — 사랑스럽게 K8이라고 불리는 Google의 컨테이너 오케스트레이션 서비스
L
Looker — BI 도구 획득 기반 Google의 최신 브라우저
Luigi — Spotify의 작업 오케스트레이션 엔진
Lake — 모든 비즈니스 데이터의 원시 저장소
Lambda —AWS의 FaaS 제품 — 매우 인기 있음
Logstash — ELK 스택의 로그 분석 솔루션
Lineage — 원시에서 가공 및 가공으로의 여정
M
MySQL — 매우 인기있는 오픈 소스 관계형 데이터베이스
MongoDB — 매우 인기있는 오픈 소스 NoSQL 데이터베이스
MariaDB — 원래 MySQL 팀에서 유지 관리하는 MySQL의 포크
MapReduce — 분산 컴퓨팅을위한 프로그래밍 모델. Hadoop의 기반
'기술과 세상읽기' 카테고리의 다른 글
비즈니스 경험과 기술을 함께, <비즈니스 머신러닝> (0) | 2021.02.20 |
---|---|
쌩초보를 위한 데이터 엔지니어 서비스(Amazon QuickSight - BI Service) (1) | 2021.02.14 |
지식이 활용되려면 어떡해야 되지? (1) | 2021.02.10 |
내가 겪은 과거의 데이터 엔지니어링(feat. 취업) (0) | 2021.02.08 |
데이터를 공부하기 어려운 이유(Update...) (0) | 2021.02.07 |