카테고리 없음

웹 스크랩핑을 위한 기본 지식

똥바보 2022. 2. 6. 23:35

 

웹 사이트에 접속해서 데이터를 가져오는 과정에 대해서 알아보자.

html 소스코드를 가져오는 방법, html 소스코드 분석하는 방법도 적어보려고 한다.

 

 

1.데이터 요청-응답 과정 이해하기

출처 : http://tcpschool.com/webbasic/works

 

 

위의 사진을 보면 이해하기 쉬울 것이다.

컴퓨터에서 웹 브라우저로 인터넷을 통해 웹사이트에 HTTP형식으로 정보를 Request하면 서버가 Response해 HTML을 보내주는 것이다.

웹사이트가 이 HTML파일을 사람이 알아보기 쉽게 변환해준다.

 

 

 

2. HTML 구조 이해하기

<!DOCTYPE html>
<html lang="ko">

<head>
	<meta charset="UTF-8">
	<title>바보도 할거에요</title>
</head>

<body>

	<h1>바보도 코딩합니다</h1>
	
</body>

</html>

HTML 태그의 구조는 위와 같다.

자세한 설명이 필요하다면 아래의 포스팅을 참고해주세요.

 

https://babodocoding.tistory.com/99

 

HTML의 기본 구조

<!DOCTYPE html> 바보도 할거에요 바보도 코딩합니다 <!DOCTYPE html> : 현재 문서가 HTML5 문서임을 명시합니다. : HTML 문서의 루트(root) 요소를 정의합니다. : HTML 문서의 메타데이터(metadata)를 정의합니다..

babodocoding.tistory.com

 

 

3. HTML 소스 가져오기

마우스 오른쪽 버튼 - 소스보기

f12눌러서 개발자 모드 등

 

 

 

4. 파싱하기

HTML코드 구문을 이해하고 분석/처리하는 것을 파싱이라고 합니다.

Beautifulsoup등을 이용해서 파싱하기

 

 

 

 

 

다음은 웹스크랩핑시 주의할 점에 대해서 적겠습니다.

 

웹 스크랩핑을 하기 편한 사이트 찾기.

(규칙이 쉽게 발견되도록 짜여진 코드가 비교적 간단한 과정으로 데이터 위치를 찾을 수 있고, 분류할 수 있기 때문에 적당한 사이트를 찾아야 원하는 정보를 가져오기 쉽다.)

 

웹 사이트는 관리자에 의해서 계속적으로 변경될 가능성이 매우 높다

그래서 내가 짠 코드가 어느순간 수행이 안된다거나 엉뚱한 결과가 나올 수 있다는 점을 기억해야 한다.

지속적 관리를 해야 한다. 웹 스크랩핑 코드는 한번 만들고 끝나지 않는다.

 

인터넷상에 공개된 데이터이더라도 저작권을 주의해야 한다!.

따라서 웹 사이트에서 얻은 데이터를 활용하기 전에 저작권 침해 여부를 꼭 꼭 확인해야 한다.