분야
분야 전체
크레마클럽 허브

Python 파이썬 2학년 스크래핑의 구조

모리 요시나오 저/이영란 | 성안당 | 2021년 12월 6일 한줄평 총점 0.0 (6건)정보 더 보기/감추기
  •  종이책 리뷰 (6건)
  •  eBook 리뷰 (0건)
  •  한줄평 (0건)
분야
IT 모바일 > IT 전문서
파일정보
PDF(DRM) 36.28MB
지원기기
크레마 PC(윈도우 - 4K 모니터 미지원) 아이폰 아이패드 안드로이드폰 안드로이드패드 전자책단말기(일부 기기 사용 불가) PC(Mac)

Python 파이썬 2학년 스크래핑의 구조

책 소개

체험으로 배우고! 대화 형식으로 공부!
Python파이썬 2학년 스크래핑의 구조
데이터 수집이나 해석, 분석에 대해 알기 쉽게 설명!


파이썬은 인공지능의 기초 언어로 배우기 쉬우면서 각종 데이터 분석에 사용되는 프로그래밍 언어로 절정의 인기를 누리고 있다. 기존이 파이썬 책이 선뜻 입문하기 어려운 감이 있었다면 이 책은 염소 박사와 강아지 다솜 양의 친근한 일러스트를 도립해 책 전체가 쉬워보이며 실제로도 코드 설명이나 설치법, 버튼 안내가 큼직큼직한 주제의 만화와 대화체 방식으로 구성하여 매우 쉽게 느껴진다.

인터넷에 공개된 데이터를 수집하는 일을 ‘크롤링(Crawling)’, 이 데이터를 해석해 필요한 데이터를 구하는 일을 ‘스크래핑(Scaping)’이라고 하는데, 파이썬은 인터넷에 액세스할 수 있는 라이브러리가 풍부해 이 두가지 모두 쉽고 편하게 할 수 있는 언어로 널리 알려져 있다. 이 책에서는 스크래핑을 하는 라이브러리 ‘Beautiful Soup4’아 데이터를 분석하는 라이브러리 ‘판다스(pandas)’를 사용해 실제로 파이썬의 핵심 기능에 접근할 수 있도록 한다.

1학년 시리즈 중 독보적인 인기를 누렸던 『파이썬 1학년』의 인기에 힘입어 『파이썬 2학년 데이터 분석 구조』가 나왔고 이 책이 원서로는 2학년 시리즈중 먼저 나왔으나 번역자 이영란 박사가 국내 사정에 맞게 코드나 사이트를 정리하여 이번에 선보이게 되었다. 이 책의 예제 코드와 함께 홈페이지 회원들에게만 제공하는 회원특전 PDF는 예제와 라이브러리 사용법 간이 매뉴얼로 성안당 홈페이지(www.cyber.co.kr) [도서몰]에 회원가입 후 [자료실]-[자료실] 바로가기에서 도서 검색을 통해 다운로드할 수 있다.
  •  책의 일부 내용을 미리 읽어보실 수 있습니다. 미리보기

목차

들어가며
이 책의 예제 테스트 환경 며
이 책의 대상 독자와 2학년 시리즈에 대해
이 책을 보는 법
예제 파일과 회원 특전 PDF의 다운로드에 대해

제1장 파이썬으로 데이터를 다운로드

LESSON 01 스크래핑이 뭘까?
크롤링과 스크래핑
주의해야 할 점도 있다
robots.txt란?

LESSON 02 파이썬을 설치해 보자
윈도에 설치하는 방법
macOS에 설치하는 방법

LESSON 03 requests로 액세스해 보자
라이브러리 설치 방법
HTML 파일을 읽어 들이는 프로그램
IDLE을 시작하자
프로그램을 만들어 보자
텍스트 파일에 쓰기: open, close
텍스트 파일에 쓰기: with문

제2장 HTML을 해석해 보자

LESSON 04 HTML을 해석해 보자
Beautiful Soup 설치하기
Beautiful Soup로 해석하기
태그를 찾아 표시하기
모든 태그를 찾아 표시하기
id나 class로 검색 범위 좁히기

LESSON 05 최신 뉴스 기사 목록을 구해 보자
디벨로퍼 툴을 사용해 범위를 좁히자

LESSON 06 링크 목록을 파일로 출력해 보자
모든 링크 태그의 href 속성 표시하기
모든 링크 태그의 href 속성을 절대 URL로 표시하기
링크 목록 자동 작성 프로그램

LESSON 07 이미지를 한꺼번에 다운로드해 보자
이미지 파일을 읽어 들여 저장하기
다운로드용 폴더를 만들어 저장하기
모든 img 태그의 이미지 파일 URL을 표시한다
페이지 안 이미지를 한꺼번에 다운로드하는 프로그램

제3장 표 데이터를 읽고 쓰자

LESSON 08 pandas를 사용해 보자
pandas 설치하기
표 데이터란?
CSV 파일 읽어 들이기
열, 행 데이터 표시하기
열, 행 데이터 추가하기
열, 행 데이터 삭제하기

LESSON 09 다양한 데이터 가공
필요한 정보 추출하기
데이터 집계하기
데이터 정렬하기
행과 열 바꾸기
CSV 파일로 출력하기

LESSON 10 그래프로 표시해 보자
matplotlib 설치하기
그래프로 표시하기
다양한 종류의 그래프 표시하기
개별 데이터를 그래프로 표시하기
막대 그래프를 이미지 파일로 출력하기

LESSON 11 엑셀 파일을 읽고 써 보자
openpyxl 설치하기
엑셀 파일로 출력하기
엑셀 파일 읽어 들이기

제4장 오픈 데이터를 분석해 보자

LESSON 12 오픈 데이터란?
오픈 데이터는 보물섬

LESSON 13 우체국: 우편번호 데이터
CSV 파일 읽어 들이기
데이터 추출하기

LESSON 14 e-나라지표: 국정모니터링지표
CSV 파일 읽어 들이기
데이터를 그래프로 표시하기

LESSON 15 기상자료개방포털: 기상청 날씨 데이터 서비스
CSV 파일 읽어 들이기
데이터를 그래프로 표시하기

LESSON 16 공공데이터포털: 지방자치단체 데이터
CSV 파일(소방서) 읽어 들이기
folium 설치하기
소방서를 지도에 표시하기
CSV 파일(음식점) 읽어 들이기
가게를 지도에 표시하기

제5장 웹 API로 데이터를 수집하자

LESSON 17 웹 API란?
다른 컴퓨터의 기능 이용하기

LESSON 18 OpenWeatherMap이란?
OpenWeatherMap 사이트 이용 순서
OpenWeatherMap 이용하기

LESSON 19 현재 날씨를 조사하자
도시명을 지정해 날씨 알아보기
JSON이란?
JSON 데이터 형식
JSON 데이터를 읽어 들이는 방법
우편번호를 지정해 날씨 알아보기

LESSON 20 오늘부터 5일 동안(3시간 간격)의 날씨 알아보기
5일 동안의 날씨를 구해 보자
UTC(협정 세계시)를 KST(한국 표준시)로 변환
5일 동안의 기온을 그래프로 표시해 보자
한 걸음 더

찾아보기

상세 이미지

상세 이미지

저자 소개 (2명)

저 : 모리 요시나오
앱 개발, 기술서와 전자공작 매거진 등의 집필 활동 및 간사이학원 대학 강사, 간사이학원 고등부 강사, 세이안 조형대학 강사, 오사카 예술대학 강사, 프로그래밍 스쿨 코프리(コプり, kopuri.com) 강사 등 프로그래밍에 대한 폭넓은 활동을 펼치고 있다. 저서로는 『즐겁게 배우는 Unity 2D 초입 문 강좌』(마이나비 출판), 『움직이고 배우다 Vue.js 개발 입문』, 『Java 1학년』, 『Python 1학년』(이상 쇼에이 사), 『즐겁게 배우는 알고리즘과 프로그래밍 도감』(마이나비출판) 등이 있다. 앱 개발, 기술서와 전자공작 매거진 등의 집필 활동 및 간사이학원 대학 강사, 간사이학원 고등부 강사, 세이안 조형대학 강사, 오사카 예술대학 강사, 프로그래밍 스쿨 코프리(コプり, kopuri.com) 강사 등 프로그래밍에 대한 폭넓은 활동을 펼치고 있다. 저서로는 『즐겁게 배우는 Unity 2D 초입 문 강좌』(마이나비 출판), 『움직이고 배우다 Vue.js 개발 입문』, 『Java 1학년』, 『Python 1학년』(이상 쇼에이 사), 『즐겁게 배우는 알고리즘과 프로그래밍 도감』(마이나비출판) 등이 있다.
역 : 이영란
도쿄대학 총합문화연구과 박사 과정 졸업. 전 시스템 엔지니어. 도쿄대학 교양학부 특임 부교수. 현재 일본에서 강의 및 연구 활동 과 컴퓨터 및 과학 도서 전문 번역가로 활동 중이다. 번역서로는 『잠 못 들 정도로 재미있는 이야기 사회심리학』, 『잠 못 들 정도로 재미있는 이야기 상대성 이론』, 『해부학의 기본』, 『Python 2학년 스크래핑의 구조』, 『Python 1학년』, 『Python이 보이는 그림책』, 『Visual Basic이 보이는 그림책』, 『성공과 실패를 결정하는 1%의 Java 프로그래밍 원리』, 『10일에 끝내는 C언어 입문 교실(제3판)』, 『실천 반복형 소... 도쿄대학 총합문화연구과 박사 과정 졸업. 전 시스템 엔지니어. 도쿄대학 교양학부 특임 부교수. 현재 일본에서 강의 및 연구 활동 과 컴퓨터 및 과학 도서 전문 번역가로 활동 중이다. 번역서로는 『잠 못 들 정도로 재미있는 이야기 사회심리학』, 『잠 못 들 정도로 재미있는 이야기 상대성 이론』, 『해부학의 기본』, 『Python 2학년 스크래핑의 구조』, 『Python 1학년』, 『Python이 보이는 그림책』, 『Visual Basic이 보이는 그림책』, 『성공과 실패를 결정하는 1%의 Java 프로그래밍 원리』, 『10일에 끝내는 C언어 입문 교실(제3판)』, 『실천 반복형 소프트웨어 개발』, 『HTML5 & CSS 사전』 등이 있다.

출판사 리뷰

■ 이 책은
머신러닝(기계학습)이나 데이터를 분석하는 데 반드시 필요한 ‘데이터’는 인터넷상에 방대하게 퍼져 있지만 파이썬을 사용하면 효율적으로 수집할 수 있다. 이러한 방법을 ‘스크래핑’이라고 합니다.
파이썬을 대략적으로 알고 계신 분들이 간단한 샘플을 만들어 보며 대화 형식으로 스크래핑의 구조를 배울 수 있습니다.

■ 대상 독자
● 파이썬의 기본 문법을 알고 있는 분(『파이썬 1학년』을 다 읽으신 분)
● 데이터 수집이나 데이터 분석 초보자

■ 2학년 시리즈의 포인트 셋
● 포인트(1) 기초 지식을 알 수 있다
각 장의 첫 부분에 만화나 일러스트를 넣어서 각 장에서 배울 내용을 소개합니다. 그 이후는 일러스트를 섞어가며 기초 지식에 대해 설명합니다.

● 포인트(2) 프로그램의 구조를 배운다
필요한 문법을 최소한으로 선별하여 중간에 포기하지 않도록 주로 대화 형식을 통해 알기 쉽게 설명합니다.

● 포인트(3) 개발 체험을 할 수 있다
프로그래밍 언어(애플리케이션) 초보자들도 재미있게 배울 수 있도록 다양한 예제를 마련했습니다.

■ 이 책의 포인트
염소 박사님, 다솜 양과 함께 인터넷에서 파일을 다운로드하는 방법, HTML을 해석하는 방법, 여러 데이터를 읽고 쓰기, ‘API의 사용법’으로 불리는 데이터 수집, 편리한 라이브러리를 이용한 간단한 가시화 방법을 알아봅니다.

종이책 회원 리뷰 (6건)

포토리뷰 Python 파이썬 2학년 스크래핑의 구조
내용 평점5점   편집/디자인 평점5점 | YES마니아 : 로얄 o******4 | 2021.12.10


 

파이썬 기초를 배우고 이후 무언가 해보고 싶은데 막막하던차에 이 책을 만나게 되었습니다.

우선 그림이 많아 내용이 딱딱하지 않고 해당 프로그램을 돌릴때 사용가능한 컴퓨터 버전들까지 디테일하게 알려주고 또한 프로그램 설치시 눌러야 되는 버튼 하나도 일일이 표시를 해줘서 따라하며 배우기에는 아주 친절한 책입니다.  자칫 어렵고 딱딱할수있는 내용인데 귀여운 캐릭터가 나와서 만화책 같이 재미있게 볼수있어서 좋았습니다.  파이썬이 익숙하지 않은 성인에게도 학생들에게도 무리없이 따라할수있게 되어있어서 다른 파이썬 1학년과 자바스크립트1학년 자바1학년도 구매를 해보고싶다는 생각이 들었습니다. 

#성안당 #Python #파이썬 #Python2학년스크래핑의구조 #스크래핑의구조 

1. 좋은 글귀, 마음에 드는 가사 인상 깊은 영화 대사 등을 메모해 주세요.
2. 출처를 넣어주세요. ex) 234page, 4번 트랙<사랑해>, <브리짓존스의 다이어리>에서 브리짓의 대사
이 리뷰가 도움이 되었나요? 접어보기
포토리뷰 파이썬 2학년 스크래핑의 구조
내용 평점5점   편집/디자인 평점5점 | 모*죽 | 2021.12.06

본인은 현재 기초 파이썬 수업을 듣고 있는데, 이제 수강 기간이 끝나면 지금 배운 것도 다 까먹을 것 같았다. 그래서 학원을 가자니 시간이 안 나서 책이라도 살까 했다.

그런데 내가 찾아본 파이썬 기초 책들은 텍스트가 빼곡해서 첫장을 넘기는 데서 부터 압박감이 심했다. 그러던 차에 이 책을 알게 되어 서평 이벤트를 신청하여 보게 되었는데


와.

나 학원 안 가도 되겠다!


싶었다. 물론 심화 과정을 배우려면 가야겠지만 기초 과정을 되새김하기 위해서 굳이 학원에 갈 필요는 없겠다는 소리다. (참고로 진짜 생기초는 1학년 편에서 나오며 난 이 책이 마음에 들어 1학년 책도 개인적으로 구매했음.)

이 책의 장점은 글자의 크기가 적당하고 만화 및 삽화, 실습 이미지가 적절히 들어가 있다는 점이다. 정말 기초를 알려주는 책이라고 해서 샀더니 빼곡한 텍스트에 압도당해 앞페이지만 조금 읽고 중고서점에 팔았던 경험이 있는 분들께 추천한다. 


보이시나요~~~삽화 텍스트 글자크기 예시 배치가 정말 이렇게 딱 적절함~~~~~

 


어쩌면 난 무료 강의를 통해 이미 파이썬 기초 강의를 들었기 때문에 어느 정도 용어가 익숙해서 더 쉽게 읽었을 수도 있다. 

개인적으로 나에게 도움이 되었던 파트는 판다스 파트였다. 강의에서 한번 듣고 이 책의 예제를 한 번 더 보니 판다스의 개념을 이해하는데 많은 도움을 받았다.
그리고 5장의 웹 api 데이터 수집도 차근차근 따라 해보니 파이썬이 전보다 더 친숙해진 것 같았다.

물론 난 아직도 코드를 다 외우지 못 해서 으으??거리는 대왕초보이나 앞으로 파이썬 배우며 기억이 나지 않는 부분이나 막히는 부분이 생길때 이 책이 좋은 조력자 노릇을 톡톡히 해줄 것 같다. 그리고 파이썬 심화과정을 배우기 전의 기초 토대를 쌓는 데도 도움을 줄 것 같고 말이다. 

작법서 외에 이런 실용서를 본 것은 정말 오랜만인데 매우 만족스러웠다. 3학년이 나오면 사지 않을까 싶다! 

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.”

이 리뷰가 도움이 되었나요? 접어보기
코딩, 사람을 더욱 풍요롭게 해주는 것
내용 평점5점   편집/디자인 평점5점 | YES마니아 : 플래티넘 보***기 | 2021.11.30

코딩이 붐을 이루고 있습니다. 초등학생들이 배울 과목은 더 이상 국영수과가 아닌, 국영수코라는 말도 있었지요. 코딩이 왜 필요한가를 생각해보자니, 코딩이 삶을 풍요롭게 해 주는 수단이 되기 때문인 것 같습니다.

 

인터넷이 확산되고, 그만큼 사람들에게 유용한 자료의 양이 늘어났습니다. 이제는 단순히 많다라고 말할 수는 없을 정도입니다. 이 많은 자료 중에 내게 필요한 자료를 어떻게 자동으로 수집하고 정리할 것인지를 고민해야 할 때지요. 이 책, <Phython 2학년 스크래핑의 구조는 그 고민을 명확하게 해결해줍니다. 넷상에서 구할 수 있는 정보들을 크롤링 (인터넷에서 공개된 데이터를 수집하는 일, p15)하고, 스크래핑 (수집한 데이터를 해석해 필요한 데이터를 구하는 일, p15)하는 과정을 어떻게 python으로 구현하느냐가 이 책의 가장 큰 목적인 셈입니다.

 

그렇다면 제일 먼저 해야 할 일은 프로그램 언어인 python을 다운로드 받는 것입니다. 1장에서는 먼저 파이썬을 설치하고, 파이썬으로 데이터를 다운로드하는 방법을 알려줍니다. 또한, 인터넷 상에서 받은 텍스트 파일(일반 문서)을 읽고 쓰는 방법도 상세히 설명해줍니다. 물론, 깔끔한 그림과 예시문과 함께 말입니다.

 

이렇게 파이썬을 설치한 다음에, 2장에서는 HTML을 해석하는 과정을 설명합니다. 아시다시피, HTML은 많은 태그로 작성됩니다. </br>은 한 줄을 바꾸는 식으로 말이죠. 이런 태그를 구분해서 내게 필요한 데이터를 추출하기 위해서, 먼저 beautiful soup을 설치합니다. 이 라이브러리를 이용해서 html 소스의 내부 요소를 검색하는 과정이 2장에서 소개됩니다.

 

3장에서는 pandas를 이용한 표 데이터 읽기 쓰기 과정을 보여줍니다. pandas 역시 2장의 beautiful soup처럼 일정한 기능을 하기 위한 외부 라이브러리이죠. 이를 이용해서 표를 읽고, 자료를 추가/삭제하거나 다시 정렬하는 등 자료를 가공하는 과정을 보여주지요. 가공된 자료를 csv 파일이나 그래프, 이미지나 엑셀 파일로 저장하는 단계까지 설명합니다. 마지막 단계에서는 엑셀 파일을 어떻게 활용하는지에 대해서도 알려줍니다.

 

4장에서는 공개되어 있는, 오픈 데이터를 읽어 들여서 활용하는 방법을 설명합니다. 우체국의 우편번호 데이터, e-나라지표의 국정 모니터링지표, 기상자료개방포털의 기상청 날씨 데이터 서비스, 공공데이터포털의 지방자치단체 데이터를 활용할 수 있도록 상세하게 알려줍니다. 이를 응용해서 그 외의 오픈 데이터를 활용할 수 있다면, 필요한 자료를 크롤링하고 스크래핑하는 과정이 조금 더 효율적일 것입니다.

 

5장에서는 웹 API (웹에서 다른 컴퓨터의 기능을 HTTP를 사용해 이용할 수 있게 해주는 장치, p159)를 활용하는 방법을 소개합니다. 이 방법은 자주 갱신되는 자료, 즉 날씨나 주가 등 변동이 잦은 자료를 활용할 때 유용하겠지요. 활용할 수 있도록 소개된 자료들은 OpenWeatherMap을 이용한 현재 날씨 조사하기, 오늘부터 5일간 세 시간 간격의 날씨 알아보기가 소개됩니다.

 

정보의 홍수 속에서 내게 필요한 정보를 찾아서 정리해서 쓴다는 것은 정말 매력적이지요. 그런 매력적인 작업을 하나씩 세세하고도 재미있게 설명해 놓은 책, <파이썬 2학년 스크래핑의 구조는 작업에 매력을 더해줍니다. 이 책을 통해 필요한 자료를 어디서든 손쉽게 찾아서 유용하게 활용하시기를 바랍니다.

 

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

 
이 리뷰가 도움이 되었나요? 접어보기
  •  종이책 상품상세 페이지에서 더 많은 리뷰를 확인하실 수 있습니다. 바로가기

한줄평 (0건)

0/50
맨위로