Scrapy
初窥Scrapy
选择一个网站
定义您想抓取的数据
编写提取数据的Spider
执行spider,获取数据
查看提取到的数据
还有什么?
接下来
安装指南
前期准备
安装Scrapy
平台安装指南
Scrapy入门教程
创建项目
定义Item
编写第一个爬虫(Spider)
保存爬取到的数据
下一步
例子
命令行工具(Command line tools)
默认的Scrapy项目结构
使用
scrapy
工具
可用的工具命令(tool commands)
自定义项目命令
Items
声明Item
Item字段(Item Fields)
与Item配合
扩展Item
Item对象
字段(Field)对象
Spiders
Spider参数
内置Spider参考手册
选择器(Selectors)
使用选择器(selectors)
内建选择器的参考
Item Loaders
Using Item Loaders to populate items
Input and Output processors
Declaring Item Loaders
Declaring Input and Output Processors
Item Loader Context
ItemLoader objects
Reusing and extending Item Loaders
Available built-in processors
Scrapy终端(Scrapy shell)
启动终端
使用终端
终端会话(shell session)样例
在spider中启动shell来查看response
Item Pipeline
编写你自己的item pipeline
Item pipeline 样例
启用一个Item Pipeline组件
Feed exports
序列化方式(Serialization formats)
存储(Storages)
存储URI参数
存储端(Storage backends)
设定(Settings)
Link Extractors
内置Link Extractor 参考
Logging
Log levels
如何设置log级别
如何记录信息(log messages)
在Spider中添加log(Logging from Spiders)
scrapy.log模块
Logging设置
数据收集(Stats Collection)
常见数据收集器使用方法
可用的数据收集器
发送email
简单例子
MailSender类参考手册
Mail设置
Telnet终端(Telnet Console)
如何访问telnet终端
telnet终端中可用的变量
Telnet console usage examples
Telnet终端信号
Telnet设定
Web Service
Web Service资源(resources)
Web服务设置
编写web服务资源(resource)
web服务资源例子
Example of web service client
常见问题(FAQ)
Scrapy相BeautifulSoup或lxml比较,如何呢?
Scrapy支持那些Python版本?
Scrapy支持Python 3么?
Scrapy是否从Django中”剽窃”了X呢?
Scrapy支持HTTP代理么?
如何爬取属性在不同页面的item呢?
Scrapy退出,ImportError: Nomodule named win32api
我要如何在spider里模拟用户登录呢?
Scrapy是以广度优先还是深度优先进行爬取的呢?
我的Scrapy爬虫有内存泄露,怎么办?
如何让Scrapy减少内存消耗?
我能在spider中使用基本HTTP认证么?
为什么Scrapy下载了英文的页面,而不是我的本国语言?
我能在哪里找到Scrapy项目的例子?
我能在不创建Scrapy项目的情况下运行一个爬虫(spider)么?
我收到了 “Filtered offsite request” 消息。如何修复?
发布Scrapy爬虫到生产环境的推荐方式?
我能对大数据(large exports)使用JSON么?
我能在信号处理器(signal handler)中返回(Twisted)引用么?
reponse返回的状态值999代表了什么?
我能在spider中调用
pdb.set_trace()
来调试么?
将所有爬取到的item转存(dump)到JSON/CSV/XML文件的最简单的方法?
在某些表单中巨大神秘的
__VIEWSTATE
参数是什么?
分析大XML/CSV数据源的最好方法是?
Scrapy自动管理cookies么?
如何才能看到Scrapy发出及接收到的Scrapy呢?
要怎么停止爬虫呢?
如何避免我的Scrapy机器人(bot)被禁止(ban)呢?
我应该使用spider参数(arguments)还是设置(settings)来配置spider呢?
我爬取了一个XML文档但是XPath选择器不返回任何的item
我得到错误: “不能导入name crawler“
调试(Debugging)Spiders
Parse命令
Scrapy终端(Shell)
在浏览器中打开
Logging
Spiders Contracts
自定义Contracts
实践经验(Common Practices)
在脚本中运行Scrapy
同一进程运行多个spider
分布式爬虫(Distributed crawls)
避免被禁止(ban)
动态创建Item类
通用爬虫(Broad Crawls)
增加并发
降低log级别
禁止cookies
禁止重试
减小下载超时
禁止重定向
启用 “Ajax Crawlable Pages” 爬取
借助Firefox来爬取
在浏览器中检查DOM的注意事项
对爬取有帮助的实用Firefox插件
使用Firebug进行爬取
介绍
获取到跟进(follow)的链接
提取数据
调试内存溢出
内存泄露的常见原因
使用
trackref
调试内存泄露
使用Guppy调试内存泄露
Leaks without leaks
下载项目图片
使用图片管道
使用样例
开启你的图片管道
图片存储
额外的特性
实现定制图片管道
定制图片管道的例子
Ubuntu 软件包
Scrapyd
自动限速(AutoThrottle)扩展
设计目标
扩展是如何实现的
限速算法
设置
Benchmarking
Jobs: 暂停,恢复爬虫
Job 路径
怎么使用
保持状态
持久化的一些坑
DjangoItem
使用DjangoItem
DjangoItem注意事项
配置Django的设置
架构概览
概述
组件
数据流(Data flow)
事件驱动网络(Event-driven networking)
下载器中间件(Downloader Middleware)
激活下载器中间件
编写您自己的下载器中间件
内置下载中间件参考手册
Spider中间件(Middleware)
激活spider中间件
编写您自己的spider中间件
内置spider中间件参考手册
扩展(Extensions)
扩展设置(Extension settings)
加载和激活扩展
可用的(Available)、开启的(enabled)和禁用的(disabled)的扩展
禁用扩展(Disabling an extension)
实现你的扩展
内置扩展介绍
核心API
Crawler API
设置(Settings) API
信号(Signals) API
状态收集器(Stats Collector) API
Requests and Responses
Request objects
Request.meta special keys
Request subclasses
Response objects
Response subclasses
Settings
指定设定(Designating the settings)
获取设定值(Populating the settings)
如何访问设定(How to access settings)
设定名字的命名规则
内置设定参考手册
信号(Signals)
延迟的信号处理器(Deferred signal handlers)
内置信号参考手册(Built-in signals reference)
异常(Exceptions)
内置异常参考手册(Built-in Exceptions reference)
Item Exporters
使用 Item Exporter
Item Exporters 参考资料
Release notes
0.22.2 (released 2014-02-14)
0.22.1 (released 2014-02-08)
0.22.0 (released 2014-01-17)
0.20.2 (released 2013-12-09)
0.20.1 (released 2013-11-28)
0.20.0 (released 2013-11-08)
0.18.4 (released 2013-10-10)
0.18.3 (released 2013-10-03)
0.18.2 (released 2013-09-03)
0.18.1 (released 2013-08-27)
0.18.0 (released 2013-08-09)
0.16.5 (released 2013-05-30)
0.16.4 (released 2013-01-23)
0.16.3 (released 2012-12-07)
0.16.2 (released 2012-11-09)
0.16.1 (released 2012-10-26)
0.16.0 (released 2012-10-18)
0.14.4
0.14.3
0.14.2
0.14.1
0.14
0.12
0.10
0.9
0.8
0.7
Contributing to Scrapy
Reporting bugs
Writing patches
Submitting patches
Coding style
Scrapy Contrib
Documentation policies
Tests
Versioning and API Stability
Versioning
API Stability
试验阶段特性
使用外部库插入命令
Scrapy
Docs
»
Edit on GitHub
Python 模块索引
s
s
scrapy
scrapy.contracts
scrapy.contracts.default
scrapy.contrib.closespider
Close spider extension
scrapy.contrib.corestats
Core stats collection
scrapy.contrib.debug
Extensions for debugging Scrapy
scrapy.contrib.downloadermiddleware
scrapy.contrib.downloadermiddleware.ajaxcrawl
scrapy.contrib.downloadermiddleware.chunked
Chunked Transfer Middleware
scrapy.contrib.downloadermiddleware.cookies
Cookies Downloader Middleware
scrapy.contrib.downloadermiddleware.defaultheaders
Default Headers Downloader Middleware
scrapy.contrib.downloadermiddleware.downloadtimeout
Download timeout middleware
scrapy.contrib.downloadermiddleware.httpauth
HTTP Auth downloader middleware
scrapy.contrib.downloadermiddleware.httpcache
HTTP Cache downloader middleware
scrapy.contrib.downloadermiddleware.httpcompression
Http Compression Middleware
scrapy.contrib.downloadermiddleware.httpproxy
Http Proxy Middleware
scrapy.contrib.downloadermiddleware.redirect
Redirection Middleware
scrapy.contrib.downloadermiddleware.retry
Retry Middleware
scrapy.contrib.downloadermiddleware.robotstxt
robots.txt middleware
scrapy.contrib.downloadermiddleware.stats
Downloader Stats Middleware
scrapy.contrib.downloadermiddleware.useragent
User Agent Middleware
scrapy.contrib.exporter
Item Exporters
scrapy.contrib.linkextractors
Link extractors classes
scrapy.contrib.linkextractors.sgml
SGMLParser-based link extractors
scrapy.contrib.loader
Item Loader class
scrapy.contrib.loader.processor
A collection of processors to use with Item Loaders
scrapy.contrib.logstats
记录基本统计(stats)
scrapy.contrib.memdebug
Memory debugger extension
scrapy.contrib.memusage
Memory usage extension
scrapy.contrib.pipeline.images
Images Pipeline
scrapy.contrib.spidermiddleware
scrapy.contrib.spidermiddleware.depth
Depth Spider Middleware
scrapy.contrib.spidermiddleware.httperror
HTTP Error Spider Middleware
scrapy.contrib.spidermiddleware.offsite
Offsite Spider Middleware
scrapy.contrib.spidermiddleware.referer
Referer Spider Middleware
scrapy.contrib.spidermiddleware.urllength
URL Length Spider Middleware
scrapy.contrib.spiders
Collection of generic spiders
scrapy.contrib.statsmailer
StatsMailer extension
scrapy.contrib.webservice
Built-in web service resources
scrapy.contrib.webservice.crawler
Crawler JSON-RPC resource
scrapy.contrib.webservice.enginestatus
Engine Status JSON resource
scrapy.contrib.webservice.stats
Stats JSON-RPC resource
scrapy.crawler
The Scrapy crawler
scrapy.exceptions
Scrapy exceptions
scrapy.http
Request and Response classes
scrapy.item
Item and Field classes
scrapy.log
Logging facility
scrapy.mail
Email sending facility
scrapy.selector
Selector class
scrapy.settings
Settings manager
scrapy.signalmanager
The signal manager
scrapy.signals
Signals definitions
scrapy.spider
Spiders base class, spider manager and spider middleware
scrapy.statscol
Stats Collectors
scrapy.telnet
The Telnet Console
scrapy.utils.trackref
Track references of live objects
scrapy.webservice
Web service