에르의 생각발전소♫ :: Scrapy 소개 및 개요

Scrapy 소개 및 개요

프로그래밍발전소 ♫

겁나 빠른기로 소문난 이 Scrapy는 파이썬으로 작성된 오픈-소스 웹 크롤링 프레임워크입니다.

XPath에 기반한 셀렉터의 도움으로 비롯해 웹페이지에서 데이터를 추출하기위해 주로 사용됩니다.

BSD에 따라 2008년6월26일에 처음 릴리즈되었으며, 2015년 6월에 이정표인 1.0 버전이 릴리즈 되었습니다.

왜 Scrapy를 사용하는가?

스케일이 큰 크롤링 프로젝트를 손 쉽게 빌드할 수 있습니다.
“Selector”라고 불리는 built-in 메카니즘을 가지고있으며 웹사이트에서 데이터를 추출하는데 중요한 역할을 합니다.
비동기로 리퀘스트를 처리하고 빠릅니다!
오토-쓰로틀링 메카니즘을 사용하여 크롤링 속도를 자동으로 조율합니다.
개발자 접근성을 보증합니다.!

Scrapy의 특징

웹 크롤링 프레임워크로서 오픈소스임과 동시에 무료입니다!
JSON, CSV, XML 등의 포맷ㅇ로 feed export를 생성해줍니다.
XPath 혹은 CSS 표현식을 사용하여 소스에서 데이터를 선택/추출하는 기능이 내장되어(built-in)있습니다.
웹페이지로 데이터를 자동으로 추출하는 ‘크롤러’가 베이스로 되어있습니다.

Scarpy의 강점

쉡게 확장할수있고 빠르고 강력합니다.
Cross-platform application framework 입니다.(WINDOW, LINUX, MAC OS, BSD …)
Scrapy Request은 비동기적으로 스케쥴되고 처리됩니다.
Scrapy에 내장된 서비스 Scrapyd는 JSON 웹서비스를 이용하여 스파이더를 제어할 수 있고 프로젝트에 업로드할 수 있게 해줍니다.
어떤 웹사이트가 raw data에 접근을 지원하는 API가 없음에도 활용할 수 있습니다.

Scrapy의 단점

파이썬 2.7+만을 지원합니다.
OS마다 설치법이 다릅니다.

저작자표시 비영리 동일조건 (새창열림)

'프로그래밍발전소 ♫' 카테고리의 다른 글

spider의 종류를 알아보자 (0)	2017.10.17
Scrapy로 프로젝트 시작하기 (0)	2017.10.17
이클립스 플러그인, 디펜던시,시스템 오류 시 조치법 :) (0)	2017.09.27
도서 리뷰] Learning JavaScript Feat, 한빛미디어 (0)	2017.08.16
Swift Fall Through구문 편! (0)	2016.07.23

by 발전소장 에르 :) 2017. 10. 17. 10:47

티스토리툴바