기록하는 투자자

[쌩초보] 스파크(Spark) - 인트로 본문

기술과 세상읽기

[쌩초보] 스파크(Spark) - 인트로

기록하는 투자자 컨티뉴언 2021. 2. 6. 22:21
728x90
반응형

참조 : books.google.co.kr/books/about/%EC%8A%A4%ED%8C%8C%ED%81%AC%EB%A5%BC_%EB%8B%A4%EB%A3%A8%EB%8A%94_%EA%B8%B0%EC%88%A0_Spark_in_A.html?id=5hxiDwAAQBAJ&printsec=frontcover&source=kp_read_button&redir_esc=y#v=onepage&q&f=false

 

스파크를 다루는 기술 Spark in Action

저자 페타 제체비치 저자소개 소프트웨어 업계에서 15년이 넘는 경력을 보유하고 있다. 자바 개발자로 커리어를 시작해 풀스택 개발자, 컨설턴트, 분석가, 팀장으로서 다양한 프로젝트에 참여해

books.google.co.kr

아파치 스파크.

종류: 데이터 분석, 기계 학습 알고리즘
개발자: 아파치 소프트웨어 재단, 캘리포니아 대학교 버클리 AMPLab, Databricks
프로그래밍 언어: 스칼라

 

위처럼 스칼라라는 프로그래밍 언어이지만, 나는 파이썬을 사용하여 스파크를 배워볼 것이다.

하둡은 Java, Spark는 스칼라 기반이다.

스파크 :  Pyspark이나 SparkR 같은 다양한 분석 API를 제공한다.

 

스파크는 범용 데이터 처리 프레임워크다.

스파크는 프레임워크보다 플랫폼에 가깝다.

스파크로 개발할 수 있는 애플리케이션은, 4가지 프로그래밍 언어로 개발할 수 있다.

스파크로 개발할 수 있는 애플리케이션은 아래와 같다.

- 일괄(batch) 처리 시스템

- 실시간(real-time) 처리 시스템

- 스파크 잡(job)을 실행하는 웹 애플리케이션

- SQL을 사용한 정형 데이터(structured data) 처리 시스템

- 기존 프로그래밍 기법을 사용한 비정형 데이터(unstructured data) 처리 시스템

- 다양한 머신러닝(machine learning) 및 데이터 개조(data munging) 작업

- 다양한 분산 파일 시스템(distributed file system), 관계형 데이터베이스, NoSQL 데이터베이스, 실시간 시스템 등과 연동한 애플리케이션

여기까지만 해도 모르는것이 많다.

용어를 모르기보다 이게 어떻게, 어디서 쓰이는지, 언제 써야되는지 알 수 없다.

계속해서 상상해보고 상황을 풀어나가본다.

프레임워크 : 프로그램의 뼈대(예시 : 닷넷)

플랫폼 : 프로그램 구동 환경(예시 : 윈도우 운영체제)

 

728x90
반응형