爬虫教程-12-爬虫使用(上)
爬虫关于和,由于http协议无记忆性,比如说登录淘宝网站的浏览记录 , 下次打开是不能直接记忆下来的,后来就有了和机制
爬虫爬取登录后的页面
所以怎样让爬虫使用验证用户身份信息的呢 , 换句话说 , 怎样在使用爬虫的时候爬取已经登录的页面呢 , 这就是本篇的重点
和介绍
是发给用户的(即http浏览器)的一段信息
是保存在服务器上的对应的另一半信息,用来记录记录用户信息
和区别和联系:
1.存放位置不同:保存在本地,保存在服务器
2.不安全
为什么不安全,因为是保存在本地的,也就是说用户可以就本地找到后进行修改
所以一般用来存放用户身份信息 , 常用来识别用户身份,比如用户名+登录密码(站点也就不怕被修改了)
当我们关闭浏览器后,再次打开一些网站,不用再次登录,也正是因为使用了保存在本地浏览器的
3.会保存在服务器上有过期时间,也有
4.单个保存数据不超过4k,部分浏览器会限制一个站点最多保存20个
5.保存在服务器
一般情况下 , 是放在内存中或者数据库中
使用登录的网站
例如人人网:
第一步:打开登录
文章插图
第二步:拷贝登录后的地址,使用火狐浏览器打开
文章插图
这可以看到报错302
原因就是火狐浏览器的和保存的不一样,站点判断用户身份改变 , 所以不允许登录,另一方面,也就说明我们使用验证身份是成功的
主角登场-爬虫使用
既然其他浏览器不能直接访问网站,我们的爬虫就更不能了,所以怎样让爬虫使用验证用户身份信息的呢?马上揭晓:
【python获取登录后的cookie_Python爬虫教程-12】编写爬虫代码
# 爬虫使用
from
if== '':
- 侠客风云传4个隐藏武功 侠客风云传4个隐藏武功获取
- 赛博朋克2077全服装获取方法 赛博朋克2077全套服装怎么弄
- 苏证通APP如何获取各类电子证件 苏证通里证件在哪里看
- 天津创业型人才落户准迁证获取方式 天津创业型人才落户准迁证获取方式是什么
- 天津创业型人才落户调档函获取方式 天津市创业型人才落户
- python模拟登录我爱我家网站
- 原神庄园烤松饼食谱怎么获得 原神 庄园烤松饼食谱获取
- 2023东莞小学入学网上报名网站官网登录不上
- 如何防止QQ被其他人登录 怎么防止别人登录QQ安全中心
- 《塞尔达传说王国之泪》开局获取高攻武器教学 高伤害武器怎么获得?