본문 바로가기

Big Data/Scraping4

스크레이핑시 데이터 구조 클래스화 다양한 데이터 구조를 스크래핑하여 CSV 파일로 저장할 때, 데이터 구조를 클래스화하는 것이 좋은 선택일 수 있습니다. 클래스화는 데이터 구조의 구성요소를 객체로 표현하고, 객체 간의 관계와 동작을 정의하는 데 도움이 됩니다. 이를 통해 데이터를 더 구조화하고 가독성을 높이며, 유지보수 및 확장성을 개선할 수 있습니다. 클래스화의 장점은 다음과 같습니다: 데이터 구조의 추상화: 클래스를 사용하면 데이터 구조의 구성 요소를 객체로 표현할 수 있습니다. 예를 들어, 웹 스크래핑을 통해 가져온 뉴스 기사 데이터의 경우, "기사 제목", "작성자", "내용" 등을 클래스의 속성으로 정의할 수 있습니다. 관계 정의: 클래스는 객체 간의 관계를 정의하는 데 유용합니다. 예를 들어, 뉴스 기사 데이터와 관련된 "카테.. 2023. 7. 18.
스크래핑 사람처럼 꾸미기 Requests header의 User-Agent를 변경 다음의 웹 사이트에서 다음과 같은 User-Agent를 카피합니다. Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Whale/3.21.192.18 Safari/537.36 https://www.whatismybrowser.com/detect/what-is-my-user-agent/ What is my user agent? Every request your web browser makes includes your User Agent; find out what your browser is sending and what thi.. 2023. 7. 17.
Crawling / Scraping 웹 크롤링(Crawling) vs 웹 스크래핑(Scraping) 기상청 우리나라 최근 3년간 기후변화 한화 최근 5년간의 성적 => 특정 문서의 데이터 수집 웹 크롤링 : 특정 문서와 링크된 문서를 수집 웹 스크래핑 조합 1. requests + beautifulsoup4 > 정적인 페이지 분석 2. requests + selenium > 동적인 페이지 분석 2023. 7. 11.
웹의 동작 웹의 동작 1. 요청(Request) 웹주소, form, header 등 요청 스트림 전송 2. 처리: database 처리 등 요청 대응 자원 존재 여부 검사 쿼리 스트링 파싱 3. 응답(Response) HTML, XML 등으로 결과 반환 응답 스트링 전송 4. 렌더링 브라우저 표시 브라우저 1. HTML Renderer 화면 표시 2. HTML DOM Parser 네트워크 엔진으로 받은 response으로 부터 객체 트리(DOM Tree) 생성 3. XHR(XML HTTP Request) 웹 서버와의 통신을 통하여 받은 정보로 DOM의 특정 노드를 업데이트 합니다. 동적인 페이지를 구성합니다. 4. Javascript Engine 5. Network Engine HTTP(s) 프로토콜을 통하여 웹 .. 2023. 7. 11.