十一城

跬步千里，小流江海。

Home Linux ML Python Java Thoughts KmKg BookCan Links About

2018-01-09
scrapy爬虫最佳实践

• 分类: python • 标签: python

步骤

编写item（item可以理解为java bean）
使用scrapy shell ‘url’来在命令行中使用response.xpath()来检查想要的数据
编写spider，通过上述得到的xpath表达式来填充
编写pine，进行存取数据库的操作
到源文件目录下通过scrapy crawl huxiu (-o 保存文件)来运行程序

知识点

yield

参考

http://brucedone.com/archives/58

http://kevinflynn.iteye.com/blog/2230990

https://segmentfault.com/q/1010000007903519

dzzxjl

Home Linux ML Python Java Thoughts KmKg BookCan Links About