패스트캠퍼스

[패스트 캠퍼스 부트캠프] 4주차

retill28 2024. 7. 12. 07:17

 

 

이번주는 본격적으로 파이썬으로 데이터를 수집하는 방법을 배웠다. 

나아가 본격적으로 데이터 분석을 하는 예제들을 몇가지 했다.

너무 예제가 많고 길어서 미처 다 글을 올리지 못했지만 주말에 복습겸 보충할 예정이다. 

 

 

우선 데이터 수집하는 방법을 배웠다. 

 

그 중에서도 압도적인 분량을 자랑하는 부분은 당연히 크롤링이다. 

아래는 시작단계부터 각종 예제들에 대한 포스팅이다.

 

 

crawling 1 - Selenium

1. 웹 크롤링 (Crawling)크롤링(Crawling)이란 기어다니다라는 뜻이 있다.그렇다면 웹 크롤링이란, 웹사이트를 돌아다니면서 정보를 탐색하고 수집하는 작업을 말한다. 즉, 웹을 기어다니며 데이터를

retill28.tistory.com

 

crawling 2 - DBPIA 예제

지난 포스팅에, 웹 크롤링의 기본과 코딩을 기록해두었다. 코드가 점차 하나씩 살이 덧붙여지는 과정을 순차적으로 기록하는 데에 주를 두었다. 분명 따라할 때는 어려운게 없었는데, 이후 여

retill28.tistory.com

 

crawling 3 - YES 24 예제

YES 24 크롤링 베스트셀러 순위권의 정보 크롤링  1. yes24 베스트셀러 페이지     2. 베스트 셀러 데이터를 수집한다. 가져올 데이터 : 제목, 저자, 출판사, 출간일, 리뷰수, 평점데이터 class 이

retill28.tistory.com

 

 

crawling 4 - Google Playstore 리뷰 예제

Google Playstore 크롤링 Google Playstore에서 어플을 검색해, 리뷰를 크롤링   1. 개요   아래의 스크린샷을 보면 q = {배달의 민족} 으로 입력한 검색어가 들어간 꼴이다.즉, 사용자에게 검색할 어

retill28.tistory.com

 

crawling 5 - SRT 예매 프로그램

SRT 예매 알림 프로그램SRT 예매 후, 예매가 완료되면 slack으로 알림받기 이 포스팅은 Selenium을 사용하여 SRT 예매 사이트에 로그인하고,원하는 날짜와 시간에 맞춰 예약을 완료한 후, 예약이 성공

retill28.tistory.com

 

API를 통한 데이터 수집

공공데이터 미세먼지 API공공데이터 API로 데이터 수집하기   1. 개요   데이터를 수집하는 방법은 지금까지처럼 크롤링을 사용하는 방법이 있고,또다른 방법으로 오픈 API를 받아오는 방법이

retill28.tistory.com

 

crawling 6 - BeautifulSoup

웹 크롤링을 하는 방법 중 지금까지는 파이썬의 pandas 라이브러리를 사용했었다. 하지만 pandas 외에도 BeautifulSoup 이라는 라이브러리를 사용할 수도 있다.     1. 크롤링할 웹사이트 request사용

retill28.tistory.com

 

 

 

 

이전 주에 배운 데이터 프레임 관련해서, 실시간 강의에서도 다루기도 했다. 

하지만 앞서 포스팅한 글이 있으므로  그것으로 복습을 하기로 한다. 

마지막으로는 이번 주말 내도록 코드와 구조를 공부할 데이터 분석 예제이다.

 

 

데이터 분석 1 - 영화 흥행 요인 분석 1

데이터 프레임을 공부했던 부분을 응용해 실제적으로 영화 데이터를 분석해보려고 한다. 우선 사용할 데이터는 2개의 csv파일로 'tmdb_5000_credits .csv ' 와 'tmdb_5000_movies.csv' 이다.    1. 데이터 살

retill28.tistory.com

 

 

데이터 분석 1 - 영화 흥행 요인 분석 2

.지난 포스팅에서는 영화 데이터를 불러와 전처리하는 과정을 순서대로 썼다. 이번 포스팅에서는 그렇게 만든 데이터를 가지고 실제로 분석하는 과정을 써보려고 한다. 우선 분석하려고 하는

retill28.tistory.com

 

 

크롤링 단계에서 조금 난해했던 부분이 있다.

바로, HTML에 대한 공부가 조금 필요했단 것, 그리고 url 쿼리에 대한 공부도 필요하다는 것. 

단순하게 파이썬 코딩을 할줄 안다 아니다를 넘어서 다른 영역에 대한 이해와 지식이 필요하다는 것이었다.

당연하다면 당연한 말인데도, 코딩을 할줄 안다는 자신감만 있었지 다른 영역도 공부할 생각이 없었던 게 조금 부끄러웠다. 

 

또 데이터 분석 예제는 약 7개가 있는데, 온라인 강의를 반복해서 듣고 또 들었었다. 

코드에 대한 이해도는 chatGPT를 곁들여서 공부에 진척을 내고 있는데 

예제에 붙어있는 질문에 대한 발상이 정말 중요한 것 같다고 다시금 느끼고 있다. 

코드에만 몰두할게 아니라, 데이터셋을 보고 무엇을 분석하고 알아볼지에 대해서 꾸준히 생각하는 연습을 좀 더 하자.