博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python scrapy 常见问题及解决 【遇到的坑】
阅读量:6580 次
发布时间:2019-06-24

本文共 731 字,大约阅读时间需要 2 分钟。

1. 

解决方法:setting.py ROBOTSTXT_OBEY = True 改成False

原因:scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件

这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,而我们现在访问这个url得到

 1 User-agent: * 2 Disallow: / 

在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取

对于使用robot协议的站点,只需要我们的爬虫不遵守该协议,就可以了,但是对于防止爬虫爬取,站点还有检查请求头、检查ip等等手段,还需要其他的相应处理。

2. 如何进一步获取数据并同时保存

解决方法:

3. ajax请求

解决方法:post请求

可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求

注意!!!

formdata的 参数值 必须是unicode , str 或者 bytes object,不能是整数。

4. 自动创建create_time

解决方法:将create_time字段设置为timestamp 并设置默认值CURRENT_TIMESTAMP

5. mysql 让清空表且自增的id重新从1开始

解决方法:truncate table table_name

转载于:https://www.cnblogs.com/littlebob/p/9462587.html

你可能感兴趣的文章
汽车常识全面介绍 - 刹车系统
查看>>
采用CAN芯片实现和FPGA通信
查看>>
动态规划算法3
查看>>
框架搭建
查看>>
关于增强for循环
查看>>
冒泡排序法
查看>>
选择排序
查看>>
Valid Phone Numbers
查看>>
ffmpeg 安装
查看>>
Django基础之中间件
查看>>
我们都是程序员(四个男人三个女人的故事下)
查看>>
基于PHPUnit编写第一个测试用例
查看>>
XmlRootAttribute与XmlTypeAttribute
查看>>
PO BO VO DTO POJO
查看>>
0001_two_sum
查看>>
POJ 1789:Truck History
查看>>
windows 下如何 连接 github--by higrid.net
查看>>
Win7 64位注册32位DLL
查看>>
【转】[重构]Primitive Obsession
查看>>
svn检出时出现Previous operation has not finished; run 'cleanup' if it was interrupted
查看>>