ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 웹 스크랩핑을 위한 기본 지식
    카테고리 없음 2022. 2. 6. 23:35

     

    웹 사이트에 접속해서 데이터를 가져오는 과정에 대해서 알아보자.

    html 소스코드를 가져오는 방법, html 소스코드 분석하는 방법도 적어보려고 한다.

     

     

    1.데이터 요청-응답 과정 이해하기

    출처 : http://tcpschool.com/webbasic/works

     

     

    위의 사진을 보면 이해하기 쉬울 것이다.

    컴퓨터에서 웹 브라우저로 인터넷을 통해 웹사이트에 HTTP형식으로 정보를 Request하면 서버가 Response해 HTML을 보내주는 것이다.

    웹사이트가 이 HTML파일을 사람이 알아보기 쉽게 변환해준다.

     

     

     

    2. HTML 구조 이해하기

    <!DOCTYPE html>
    <html lang="ko">
    
    <head>
    	<meta charset="UTF-8">
    	<title>바보도 할거에요</title>
    </head>
    
    <body>
    
    	<h1>바보도 코딩합니다</h1>
    	
    </body>
    
    </html>

    HTML 태그의 구조는 위와 같다.

    자세한 설명이 필요하다면 아래의 포스팅을 참고해주세요.

     

    https://babodocoding.tistory.com/99

     

    HTML의 기본 구조

    <!DOCTYPE html> 바보도 할거에요 바보도 코딩합니다 <!DOCTYPE html> : 현재 문서가 HTML5 문서임을 명시합니다. : HTML 문서의 루트(root) 요소를 정의합니다. : HTML 문서의 메타데이터(metadata)를 정의합니다..

    babodocoding.tistory.com

     

     

    3. HTML 소스 가져오기

    마우스 오른쪽 버튼 - 소스보기

    f12눌러서 개발자 모드 등

     

     

     

    4. 파싱하기

    HTML코드 구문을 이해하고 분석/처리하는 것을 파싱이라고 합니다.

    Beautifulsoup등을 이용해서 파싱하기

     

     

     

     

     

    다음은 웹스크랩핑시 주의할 점에 대해서 적겠습니다.

     

    웹 스크랩핑을 하기 편한 사이트 찾기.

    (규칙이 쉽게 발견되도록 짜여진 코드가 비교적 간단한 과정으로 데이터 위치를 찾을 수 있고, 분류할 수 있기 때문에 적당한 사이트를 찾아야 원하는 정보를 가져오기 쉽다.)

     

    웹 사이트는 관리자에 의해서 계속적으로 변경될 가능성이 매우 높다

    그래서 내가 짠 코드가 어느순간 수행이 안된다거나 엉뚱한 결과가 나올 수 있다는 점을 기억해야 한다.

    지속적 관리를 해야 한다. 웹 스크랩핑 코드는 한번 만들고 끝나지 않는다.

     

    인터넷상에 공개된 데이터이더라도 저작권을 주의해야 한다!.

    따라서 웹 사이트에서 얻은 데이터를 활용하기 전에 저작권 침해 여부를 꼭 꼭 확인해야 한다.

     

     

     

Designed by Tistory.