웹 스크랩핑을 위한 기본 지식
웹 사이트에 접속해서 데이터를 가져오는 과정에 대해서 알아보자.
html 소스코드를 가져오는 방법, html 소스코드 분석하는 방법도 적어보려고 한다.
1.데이터 요청-응답 과정 이해하기
출처 : http://tcpschool.com/webbasic/works
위의 사진을 보면 이해하기 쉬울 것이다.
컴퓨터에서 웹 브라우저로 인터넷을 통해 웹사이트에 HTTP형식으로 정보를 Request하면 서버가 Response해 HTML을 보내주는 것이다.
웹사이트가 이 HTML파일을 사람이 알아보기 쉽게 변환해준다.
2. HTML 구조 이해하기
<!DOCTYPE html>
<html lang="ko">
<head>
<meta charset="UTF-8">
<title>바보도 할거에요</title>
</head>
<body>
<h1>바보도 코딩합니다</h1>
</body>
</html>
HTML 태그의 구조는 위와 같다.
자세한 설명이 필요하다면 아래의 포스팅을 참고해주세요.
https://babodocoding.tistory.com/99
HTML의 기본 구조
<!DOCTYPE html> 바보도 할거에요 바보도 코딩합니다 <!DOCTYPE html> : 현재 문서가 HTML5 문서임을 명시합니다. : HTML 문서의 루트(root) 요소를 정의합니다. : HTML 문서의 메타데이터(metadata)를 정의합니다..
babodocoding.tistory.com
3. HTML 소스 가져오기
마우스 오른쪽 버튼 - 소스보기
f12눌러서 개발자 모드 등
4. 파싱하기
HTML코드 구문을 이해하고 분석/처리하는 것을 파싱이라고 합니다.
Beautifulsoup등을 이용해서 파싱하기
다음은 웹스크랩핑시 주의할 점에 대해서 적겠습니다.
웹 스크랩핑을 하기 편한 사이트 찾기.
(규칙이 쉽게 발견되도록 짜여진 코드가 비교적 간단한 과정으로 데이터 위치를 찾을 수 있고, 분류할 수 있기 때문에 적당한 사이트를 찾아야 원하는 정보를 가져오기 쉽다.)
웹 사이트는 관리자에 의해서 계속적으로 변경될 가능성이 매우 높다
그래서 내가 짠 코드가 어느순간 수행이 안된다거나 엉뚱한 결과가 나올 수 있다는 점을 기억해야 한다.
지속적 관리를 해야 한다. 웹 스크랩핑 코드는 한번 만들고 끝나지 않는다.
인터넷상에 공개된 데이터이더라도 저작권을 주의해야 한다!.
따라서 웹 사이트에서 얻은 데이터를 활용하기 전에 저작권 침해 여부를 꼭 꼭 확인해야 한다.