본문 바로가기

Big Data94

스크래핑 사람처럼 꾸미기 Requests header의 User-Agent를 변경 다음의 웹 사이트에서 다음과 같은 User-Agent를 카피합니다. Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Whale/3.21.192.18 Safari/537.36 https://www.whatismybrowser.com/detect/what-is-my-user-agent/ What is my user agent? Every request your web browser makes includes your User Agent; find out what your browser is sending and what thi.. 2023. 7. 17.
Crawling / Scraping 웹 크롤링(Crawling) vs 웹 스크래핑(Scraping) 기상청 우리나라 최근 3년간 기후변화 한화 최근 5년간의 성적 => 특정 문서의 데이터 수집 웹 크롤링 : 특정 문서와 링크된 문서를 수집 웹 스크래핑 조합 1. requests + beautifulsoup4 > 정적인 페이지 분석 2. requests + selenium > 동적인 페이지 분석 2023. 7. 11.
웹의 동작 웹의 동작 1. 요청(Request) 웹주소, form, header 등 요청 스트림 전송 2. 처리: database 처리 등 요청 대응 자원 존재 여부 검사 쿼리 스트링 파싱 3. 응답(Response) HTML, XML 등으로 결과 반환 응답 스트링 전송 4. 렌더링 브라우저 표시 브라우저 1. HTML Renderer 화면 표시 2. HTML DOM Parser 네트워크 엔진으로 받은 response으로 부터 객체 트리(DOM Tree) 생성 3. XHR(XML HTTP Request) 웹 서버와의 통신을 통하여 받은 정보로 DOM의 특정 노드를 업데이트 합니다. 동적인 페이지를 구성합니다. 4. Javascript Engine 5. Network Engine HTTP(s) 프로토콜을 통하여 웹 .. 2023. 7. 11.
데이터 어널리스트(Data Analyst) 데이터 어널리스트(Data Analyst) 비즈니스 분석가 그로스 해커 퍼포먼스 마케터 데이터 사이언티스트 & 데이터 어널리스트 역량 데이터 모델링 : 어떤 상황에 어떤 기법을 사용할 것인지(시각화, 전처리, 변수생성, 모델링) 소프트웨어 엔지니어링 통계지식 기획력(인사이트) 데이터 어널리스트는 어떤 도메인에 종사할 것인지가 중요하다. 해당 도메인에 대한 흥미, 지식 등이 필요하다. 2023. 6. 30.