확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제
러닝 스파크

러닝 스파크

: 번개같이 빠른 데이터 분석

제이펍-I♥Cloud -10이동
리뷰 총점8.2 리뷰 10건
베스트
IT 모바일 top20 5주
정가
24,000
판매가
21,600 (10% 할인)
구매 시 참고사항
  • 본 도서의 개정판이 출간되었습니다.
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
분철서비스 시작 시 알려드립니다. 분철서비스 알림신청

품목정보

품목정보
발행일 2015년 10월 15일
쪽수, 무게, 크기 336쪽 | 188*245*22mm
ISBN13 9791185890333
ISBN10 1185890335

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

저자 소개 관련자료 보이기/감추기

저 자 소 개
홀든 카로(Holden Karau)

데이터브릭스(Databricks)의 소프트웨어 개발 엔지니어이며, 오픈 소스에서 활발하게 활동 중이다. 그녀는 초기 스파크 책의 저자이기도 하다. 데이터브릭스 이전에는 구글(Google), 포스퀘어(Foursqare), 아마존(Amazon) 같은 회사들에서 다양한 검색 및 분류에 관련된 일을 하였다. 그녀는 워털루 대학(University of Waterloo)을 졸업하면서 컴퓨터 과학/수학 학사학위를 취득했다. 소프트웨어 외에는 사격, 용접, 훌라후프를 즐긴다.

앤디 콘빈스키(Andy Konwinski)

데이터브릭스의 공동 창업자이다. 박사과정으로 재학하다가 UC 버클리(Berkeley)의 AMPLab에서 박사 후 과정을 수행하며 대용량 분산 컴퓨팅과 클러스터 스케줄링에 대해 연구했다. 그는 아파치 메소스(Apache Mesos) 프로젝트의 공동 창시자이며 커미터이다. 또한, 구글에서 차세대 클러스터 스케줄링 시스템인 오메가(Omega)를 설계하며 시스템 엔지니어들 및 연구원들과 일하였다. 최근에는 AMP 캠프 빅데이터 부트캠프와 스파크 서밋을 주최하고 이끌고 있으며, 스파크 프로젝트에도 공헌하고 있다.

패트릭 웬델(Patrick Wendell)

데이터브릭스의 공동 창업자이며 스파크 커미터이자 PMC 멤버이다. 스파크 프로젝트에서 스파크 1.0을 포함해 여러 버전의 릴리스 관리자로 활동해 왔다. 패트릭은 또 스파크 코어 엔진의 여러 하부 시스템을 유지 관리하고 있다. 데이터브릭스 창업 이전에 UC 버클리에서 컴퓨터 과학 석사학위를 취득하였다. 그의 연구 분야는 대용량 분석의 워크로드에 대해 빠른 응답성을 보이는 스케줄링에 대한 것이었다. 프린스턴 대학(Princeton University)에서 컴퓨터 과학 교육 학사학위를 받기도 했다.

마테이 자하리아(Matei Zaharia)

아파치 스파크의 창시자이자 데이터브릭스의 최고기술경영자(CTO)이다. UC 버클리에서 박사학위를 받았으며, 이때 연구 프로젝트로 스파크를 시작했다. 현재는 아파치의 부사장이기도 하다. 스파크 외에도 클러스터 컴퓨팅 분야에서의 연구와 다른 프로젝트들에서 오픈 소스 공헌을 하였는데, 그중에는 아파치 하둡(커미터로 활동)이나 아파치 메소스(프로젝트 시작에 관여) 등이 있다.
역자 : 박종영
한국 오라클, 세븐 네트웍스 코리아 등의 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등의 개발 경험을 갖고 있으며, 현재는 빅데이터 전문회사인 그루터(http://www.gruter.com/)에서 아파치 타조(http://tajo.apache.org/) 개발에 매진하고 있다.

책 속으로 책속으로 보이기/감추기

이 입문서는 스파크를 빠르게 익히고 실행할 수 있도록 쓰였다. 이 책을 통해서 자신의 PC에 스파크를 다운로드하여 실행하고, API를 배우기 위해 명령어들을 입력하고 그 결과를 볼 수 있을 것이다. 그리고 일단 그 정도 시점이 되면 가능한 작업의 세부 사항과 분산 실행에 대해 다루고, 최종적으로는 스파크에 내장된 머신 러닝, 스트림 처리, SQL 등의 고수준 라이브러리를 둘러보게 될 것이다. 한 대의 컴퓨터든 수백 대로 구성된 클러스터든 데이터 분석에 관한 문제를 맞닥뜨렸을 때, 우리는 이 책이 그 문제를 빠르게 해결할 수 있는 도구가 되기를 바란다. _XVp

스파크는 작업 노드에서는 데이터를 메모리에 올려 처리할 수 있어서 많은 분산 작업들, 심지어 십수 대의 머신에서 테라바이트(terabyte) 단위의 데이터를 처리하는 것도 몇 초 만에 끝낼 수 있다. 이런 높은 성능 덕분에 일반적으로 셸에서 수행하게 되는 반복적인 일회성, 탐색적 분석 같은 종류의 작업을 스파크에서 수행하는 것도 적절하다. 스파크는 클러스터 연결을 잘 지원하는 기능을 가진 파이썬과 스칼라 셸을 지원한다. _14p

이번 장에서는 스파크에서 가장 흔하게 쓰이는 트랜스포메이션과 액션들에 대해 알아본다. 특별한 데이터 타입을 취급하는 RDD를 위한 추가적인 연산들도 존재한다. 예를 들면, 통계 함수들이나 키/값 페어(key/value pair)를 다루는 RDD에서 키를 기준으로 데이터를 집계하는 키/값 연산 같은 것들이 있다. RDD 타입에 따라 변환하는 방법과 이런 특별한 연산들은 후반부에 다룬다. _43p

오브젝트 파일이 자바 직렬화를 사용한다는 것에는 몇 가지 주의가 필요하다. 일반적인 시퀀스 파일과는 달리 결과 파일이 하둡에서 동일 객체를 출력한 것과는 다르다. 다른 포맷들과는 다르게 오브젝트 파일은 거의 스파크 내에서 스파크 작업들끼리 통신하기 위한 용도로 많이 쓰인다. 게다가 자바 직렬화는 느리다. _102p

스파크를 최적화하고 디버깅하기 위한 첫 번째 단계는 스파크 시스템의 내부 설계를 좀 더 깊이 이해하는 것이다. 이전 장들에서 RDD와 파티션 등에 대한 “논리적인” 관점에서의 표현들을 보아 왔다. 실행하면서 스파크는 이 논리적 표현들을 여러 개의 연산들을 태스크로 합쳐서 물리적인 실행 계획으로 바꾼다. 스파크 실행의 전체적인 형태를 이해하는 것은 이 책의 범위를 벗어나지만, 관련된 개념들이 엮이는 단계들에 대해 올바른 이해를 가지는 것은 작업을 최적화하고 디버깅하는 데에 도움이 된다. _174p
___본문 중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

추천평 추천평 보이기/감추기

《러닝 스파크》는 빅데이터 애플리케이션을 구축해 주는 가장 인기 있는 프레임워크 입문서를 찾는 사람들에게 내가 가장 추천하는 책이다.
_벤 로리카(Ben Lorica), 오라일리 미디어 수석 데이터 과학자

회원리뷰 (3건) 회원리뷰 이동

한줄평 (7건) 한줄평 이동

총 평점 7.4점 7.4 / 10.0

배송/반품/교환 안내

배송 안내
반품/교환 안내에 대한 내용입니다.
배송 구분 예스24 배송
  •  배송비 : 무료배송
포장 안내

안전하고 정확한 포장을 위해 CCTV를 설치하여 운영하고 있습니다.

고객님께 배송되는 모든 상품을 CCTV로 녹화하고 있으며, 철저한 모니터링을 통해 작업 과정에 문제가 없도록 최선을 다 하겠습니다.

목적 : 안전한 포장 관리
촬영범위 : 박스 포장 작업

  • 포장안내1
  • 포장안내2
  • 포장안내3
  • 포장안내4
반품/교환 안내

상품 설명에 반품/교환과 관련한 안내가 있는경우 아래 내용보다 우선합니다. (업체 사정에 따라 달라질 수 있습니다)

반품/교환 안내에 대한 내용입니다.
반품/교환 방법
  •  고객만족센터(1544-3800), 중고샵(1566-4295)
  •  판매자 배송 상품은 판매자와 반품/교환이 협의된 상품에 한해 가능합니다.
반품/교환 가능기간
  •  출고 완료 후 10일 이내의 주문 상품
  •  디지털 콘텐츠인 eBook의 경우 구매 후 7일 이내의 상품
  •  중고상품의 경우 출고 완료일로부터 6일 이내의 상품 (구매확정 전 상태)
  •  모바일 쿠폰의 경우 유효기간(발행 후 1년) 내 등록하지 않은 상품
반품/교환 비용
  •  고객의 단순변심 및 착오구매일 경우 상품 반송비용은 고객 부담임
  •  직수입양서/직수입일서중 일부는 변심 또는 착오로 취소시 해외주문취소수수료 20%를 부과할수 있음

    단, 아래의 주문/취소 조건인 경우, 취소 수수료 면제

    •  오늘 00시 ~ 06시 30분 주문을 오늘 오전 06시 30분 이전에 취소
    •  오늘 06시 30분 이후 주문을 익일 오전 06시 30분 이전에 취소
  •  직수입 음반/영상물/기프트 중 일부는 변심 또는 착오로 취소 시 해외주문취소수수료 30%를 부과할 수 있음

    단, 당일 00시~13시 사이의 주문은 취소 수수료 면제

  •  박스 포장은 택배 배송이 가능한 규격과 무게를 준수하며, 고객의 단순변심 및 착오구매일 경우 상품의 반송비용은 박스 당 부과됩니다.
반품/교환 불가사유
  •  소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  •  소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 : 예) 화장품, 식품, 가전제품, 전자책 단말기 등
  •  복제가 가능한 상품 등의 포장을 훼손한 경우 : 예) CD/LP, DVD/Blu-ray, 소프트웨어, 만화책, 잡지, 영상 화보집
  •  소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  •  디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  •  eBook 대여 상품은 대여 기간이 종료 되거나, 2회 이상 대여 했을 경우 취소 불가
  •  모바일 쿠폰 등록 후 취소/환불 불가
  •  중고상품이 구매확정(자동 구매확정은 출고완료일로부터 7일)된 경우
  •  LP상품의 재생 불량 원인이 기기의 사양 및 문제인 경우 (All-in-One 일체형 일부 보급형 오디오 모델 사용 등)
  •  시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  •  전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
소비자 피해보상
  •  상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 준하여 처리됨
환불 지연에
따른 배상
  •  대금 환불 및 환불 지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리
뒤로 앞으로 맨위로 공유하기