글
반응형
겁나 빠른기로 소문난 이 Scrapy는 파이썬으로 작성된 오픈-소스 웹 크롤링 프레임워크입니다.
XPath에 기반한 셀렉터의 도움으로 비롯해 웹페이지에서 데이터를 추출하기위해 주로 사용됩니다.
BSD에 따라 2008년6월26일에 처음 릴리즈되었으며, 2015년 6월에 이정표인 1.0 버전이 릴리즈 되었습니다.
왜 Scrapy를 사용하는가?
- 스케일이 큰 크롤링 프로젝트를 손 쉽게 빌드할 수 있습니다.
- “Selector”라고 불리는 built-in 메카니즘을 가지고있으며 웹사이트에서 데이터를 추출하는데 중요한 역할을 합니다.
- 비동기로 리퀘스트를 처리하고 빠릅니다!
- 오토-쓰로틀링 메카니즘을 사용하여 크롤링 속도를 자동으로 조율합니다.
- 개발자 접근성을 보증합니다.!
Scrapy의 특징
- 웹 크롤링 프레임워크로서 오픈소스임과 동시에 무료입니다!
- JSON, CSV, XML 등의 포맷ㅇ로 feed export를 생성해줍니다.
- XPath 혹은 CSS 표현식을 사용하여 소스에서 데이터를 선택/추출하는 기능이 내장되어(built-in)있습니다.
- 웹페이지로 데이터를 자동으로 추출하는 ‘크롤러’가 베이스로 되어있습니다.
Scarpy의 강점
- 쉡게 확장할수있고 빠르고 강력합니다.
- Cross-platform application framework 입니다.(WINDOW, LINUX, MAC OS, BSD …)
- Scrapy Request은 비동기적으로 스케쥴되고 처리됩니다.
- Scrapy에 내장된 서비스 Scrapyd는 JSON 웹서비스를 이용하여 스파이더를 제어할 수 있고 프로젝트에 업로드할 수 있게 해줍니다.
- 어떤 웹사이트가 raw data에 접근을 지원하는 API가 없음에도 활용할 수 있습니다.
Scrapy의 단점
- 파이썬 2.7+만을 지원합니다.
- OS마다 설치법이 다릅니다.
반응형
'프로그래밍발전소 ♫' 카테고리의 다른 글
spider의 종류를 알아보자 (0) | 2017.10.17 |
---|---|
Scrapy로 프로젝트 시작하기 (0) | 2017.10.17 |
이클립스 플러그인, 디펜던시,시스템 오류 시 조치법 :) (0) | 2017.09.27 |
도서 리뷰] Learning JavaScript Feat, 한빛미디어 (0) | 2017.08.16 |
Swift Fall Through구문 편! (0) | 2016.07.23 |
RECENT COMMENT