Data_Analysis

challenge 1. IMDb에서 영화 정보 수집하기 IMDb페이지에서 현재 상영 중인 영화의 1. 제목 / 감독 / 배우 찾기 그러고서 2. Action장르의 영화만 출력하기 1. 제목 / 감독 / 배우 찾기 import requests from bs4 import BeautifulSoup raw = requests.get("https://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth", headers = {"User-Agent" : "Mozilla/5.0"}) html = BeautifulSoup(raw.text, 'html.parser') movies = html.select("td.overview-top") # 컨테이너 : td.overview-top #..
Week5. 똑똑하게 데이터 수집하기 다양한 데이터 수집기를 만들기 위해 선택자를 업그레이드 & 속성값을 수집 이미지 데이터 수집하는 법 을 배울 것. stage1. 순서를 활용해서 데이터 수집하기 네이버 영화 데이터 수집하기 네이버 영화, 현재 상영영화에서 현재 상영중인 영화 전체의 제목/평점/장르/감독/배우를 수집 # 네이버 영화 데이터 수집 import requests from bs4 import BeautifulSoup raw = requests.get("https://movie.naver.com/movie/running/current.nhn", headers = {"User-Agent" : "Mozilla/5.0"}) # raw데이터를 얻어온 후, html로 파싱해주자. html = Beauti..
Week4. 데이터를 저장하는 방법 수집한 데이터를 원하는 파일 형식(엑셀, csv)으로 저장하는 법을 알아볼 것 1. 파이썬으로 파일 만들기 파일 만들기 기본 파이썬 파일 변수 이해하기 출력문을 통해 파이참 검은 화면에 출력한 데이터는 일회성이다. 따라서 값을 저장하고 다시 사용하기 위해서는 파일로 변환해야 한다. f = open('text.txt', 'w') f.close() 이를 실행시키면 text.txt라는 파일이 생겼음을 볼 수 있다. 이때 주의할 것 파일변수.close()를 꼭 해줄 것. 그냥 open함수를 쓰면 close함수도 동시에 써주도록 해라. 열린 파일을 닫지 않으면 컴퓨터의 어딘가에 파일이 열린 상태로 유지된다. open이라는 함수는 앞에 나오는 파일 이름 text.txt를 w(wr..
challeng2 - Y-combinator news 데이터 수집하기 ycombinator사이트의 제목과 순위데이터를 수집하여 출력하는 과제. 이때, 밑에 more 버튼을 누르면 다음 페이지로 넘어갈 수 있는데 이때 발생하는 요청값 규칙을 찾아내어 데이터 수집기를 작성하자. 컨테이너 : tr.athing 순위 : span.rank 제목 선택자 : td.title > a url : https://news.ycombinator.com/news?p=1 import requests from bs4 import BeautifulSoup for page in range(1, 11): raw = requests.get("https://news.ycombinator.com/news?p="+str(page), heade..
Week3_2 파이썬으로 데이터 수집하기 네이버 뉴스 기사 수집하기 안티크롤링과 회피방법 데이터 수집을 하다보면 이 데이터수집을 막아놓은 홈페이지가 있다. 웹 데이터 자체는 모두에게 공개된 데이터이지만 데이터를 각 기업이 핵심적인 가치로 사용하는 경우, 뺏기고싶지 않기 때문. 사람인의 경우 잡코리아의 데이터를 무단 크롤링하여 법적 제재를 받은 경우가 존재한다. 따라서 데이터 수집을 할 때에 데이터를 수집하는 것 자체가 위법은 아니지만, 이를 불공정한 방법으로 사용하는 것은 위법이 될 수 있다. 이렇게 데이터 크롤링을 막아놓은 기술이나 정책을 안티 크롤링이라고 한다. 때문에 원하는 데이터를 얻지 못하는 경우가 있다. 따라서 간단한 데이터 크롤링 회피 방법이 있다. 기본적으로 웹브라우저에서 어떤 홈페이지에 ..
Week3_1 파이썬으로 데이터 수집하기 오픈소스 패키지란? 배울 것 라이브러리의 개념 이해하기 외부 라이브러리 설치(BeautifulSoup4, requests) 파이썬은 오픈소스 생태계 안에서 개발되었기에 누구나 사용, 수정, 재배포가 가능하다. 대표적인 파이썬 오픈소스 패키지 1. 장고(Django) 웹개발에 필요한 여러가지 기능들을 구현해놨음. 장고로 개발된 유명한 것은 인스타그램, 유튜브 등이 있다. 2. 플라스크(Flask) 장고보다 가볍다. 웹개발에 필요한 최소한의 기능만이 구현되어있기에 숙련자가 사용하기 좋다. 플라스크로 개발된 것은 핀터레스트, 링크드인 등이 있다. 3. 판다스(Pandas) 시트형태(엑셀, 구글시트 등)의 데이터를 쉽게 다룰 수 있는 패키지이다. 이는 독립적으로 사용되기..
2. 데이터수집을 위한 기초 파이썬 파이썬 기초 문법 이해하기 변수와 자료형 숫자의 연산 a = 1 b = 5 print(a + b) // 결과값 : 6 c = a - b print(c) // 결과값 : 4 c = b % 2 // % 연산자는 나머지를 계산 print(c) // 결과값 : 1 c = b // 2 // //연산자는 몫을 계 print(c) // 결과값 : 2 문자의 연산 파이썬은 문자의 연산도 가능하다. 자료형을 맞춰주어야 한다. a = "Hello" b = "World" print(a + b) // 결과값 : HelloWorld // + 연산자를 사용하면 문자와 문자가 공백 없이 붙는다. 문자는 곱하기도 가능하다. print("hello"*3) // 결과값 : hellohellohello..
1. 웹페이지의 구조 이해 데이터 수집이란? 웹페이지는 HTML코드로 이루어져 있는데 이는 익스플로러, 크롬과 같은 웹브라우저를 통해 보기 좋게 나타난다. 이때, 데이터 수집을 하는 과정은 눈으로 볼 수 있는 데이터를 소스 코드 안에 어디에 있는지 확인 후 가져오는 것을 데이터 수집이라고 한다. 웹페이지(HTML)의 기본 구조 내용 html 문서는 태그로 둘러 쌓여 있다. 이러한 html에서 원하는 내용이 속해 있는 태그를 통해 수집하고자하는 데이터를 쉽게 찾을 수 있다. 2. HTML과 태그 태그의 개념과 간단한 태그 실습 태그를 배워봅시다 텍스트편 헤더 연습하기 html은 태그로 이루어진 문서입니다. 텍스트를 진하게 만들 수도 있고, 밑줄을 칠 수도 있습니다. 참, 줄바꿈을 하려면 br태그를 사용해주..
현재 하고 있는 일 1. 데이터분석 입문 스터디 (인프런 판다스 입문 강의로 진행중) 2. 연합동아리 C 공부한 기록 sozerodev/Learning_DataAnalysis Learning DataAnalysis with python. Contribute to sozerodev/Learning_DataAnalysis development by creating an account on GitHub. github.com
sovelop
'Data_Analysis' 카테고리의 글 목록