2018-01-09
scrapy爬虫最佳实践
• 分类:
python
• 标签:
python
步骤
- 编写item(item可以理解为java bean)
- 使用
scrapy shell ‘url’
来在命令行中使用response.xpath()
来检查想要的数据 - 编写spider,通过上述得到的xpath表达式来填充
- 编写pine,进行存取数据库的操作
- 到源文件目录下通过scrapy crawl huxiu (-o 保存文件)来运行程序
知识点
yield
参考
http://brucedone.com/archives/58
http://kevinflynn.iteye.com/blog/2230990
https://segmentfault.com/q/1010000007903519
dzzxjl