일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 책추천
- #인공지능
- #도서리뷰
- 돈
- 부자
- 공부
- 도서
- #ai관련주
- #반도체관련주
- #미국증시
- #엔비디아관련주
- 독서
- #엔비디아주가
- 책리뷰
- #미국환율
- #금리
- 컨티뉴언
- #엔비디아
- #미국주식
- 일상
- 도서리뷰
- #Snp500
- #메타주가
- #애플주가
- #테슬라주가
- #책추천
- 독서모임
- #엔비디아실적발표
- #엔비디아주식
- 책
- Today
- Total
기록하는 투자자
[쌩초보] 스파크(Spark) - 인트로 본문
스파크를 다루는 기술 Spark in Action
저자 페타 제체비치 저자소개 소프트웨어 업계에서 15년이 넘는 경력을 보유하고 있다. 자바 개발자로 커리어를 시작해 풀스택 개발자, 컨설턴트, 분석가, 팀장으로서 다양한 프로젝트에 참여해
books.google.co.kr
아파치 스파크.
종류: 데이터 분석, 기계 학습 알고리즘
개발자: 아파치 소프트웨어 재단, 캘리포니아 대학교 버클리 AMPLab, Databricks
프로그래밍 언어: 스칼라
위처럼 스칼라라는 프로그래밍 언어이지만, 나는 파이썬을 사용하여 스파크를 배워볼 것이다.
하둡은 Java, Spark는 스칼라 기반이다.
스파크 : Pyspark이나 SparkR 같은 다양한 분석 API를 제공한다.
스파크는 범용 데이터 처리 프레임워크다.
스파크는 프레임워크보다 플랫폼에 가깝다.
스파크로 개발할 수 있는 애플리케이션은, 4가지 프로그래밍 언어로 개발할 수 있다.
스파크로 개발할 수 있는 애플리케이션은 아래와 같다.
- 일괄(batch) 처리 시스템
- 실시간(real-time) 처리 시스템
- 스파크 잡(job)을 실행하는 웹 애플리케이션
- SQL을 사용한 정형 데이터(structured data) 처리 시스템
- 기존 프로그래밍 기법을 사용한 비정형 데이터(unstructured data) 처리 시스템
- 다양한 머신러닝(machine learning) 및 데이터 개조(data munging) 작업
- 다양한 분산 파일 시스템(distributed file system), 관계형 데이터베이스, NoSQL 데이터베이스, 실시간 시스템 등과 연동한 애플리케이션
여기까지만 해도 모르는것이 많다.
용어를 모르기보다 이게 어떻게, 어디서 쓰이는지, 언제 써야되는지 알 수 없다.
계속해서 상상해보고 상황을 풀어나가본다.
프레임워크 : 프로그램의 뼈대(예시 : 닷넷)
플랫폼 : 프로그램 구동 환경(예시 : 윈도우 운영체제)
'기술과 세상읽기' 카테고리의 다른 글
내가 겪은 과거의 데이터 엔지니어링(feat. 취업) (0) | 2021.02.08 |
---|---|
데이터를 공부하기 어려운 이유(Update...) (0) | 2021.02.07 |
[쌩초보] 데이터 엔지니어링, 감이 안와서 내가 정리해본다. (0) | 2021.02.06 |
데이터관련 외부자료(Update...) (0) | 2021.02.06 |
데이터 엔지니어링 관련 강의(Update...) (0) | 2021.02.06 |