十一城

跬步千里,小流江海。

Home Linux ML Python Java Thoughts KmKg BookCan Links About

2018-01-09
scrapy爬虫最佳实践

• 分类: python • 标签:

步骤

  1. 编写item(item可以理解为java bean)
  2. 使用scrapy shell ‘url’来在命令行中使用response.xpath()来检查想要的数据
  3. 编写spider,通过上述得到的xpath表达式来填充
  4. 编写pine,进行存取数据库的操作
  5. 到源文件目录下通过scrapy crawl huxiu (-o 保存文件)来运行程序

知识点

yield

参考

http://brucedone.com/archives/58

http://kevinflynn.iteye.com/blog/2230990

https://segmentfault.com/q/1010000007903519


dzzxjl

Home Linux ML Python Java Thoughts KmKg BookCan Links About