【金秋打卡】第3天 爬虫面试题笔记
2022/10/28 4:24:57
本文主要是介绍【金秋打卡】第3天 爬虫面试题笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
python 工程師 -爬蟲面試題 -講師??
請簡述HTTP 和 HTTPS 區別?
HTTP : 超文本"明文"传输协议 Port: 80
HTTPS: SSL+HTTP -數據加密 + HTTP 需要帳密 Port: 443
常见的响应状态码有哪些, 分别代表甚么意思?
200 请求成功
302 资源(网页等)被永久转移到其他URL
404 请求的资源不存在
500 内部服务器错误
列举请求头中常见的栏位?
User-Agent: 客户端请求标示
Accept: 传输文件类型
Referer: 请求跳转来源
cookie: 登陆凭据
Content-Type: 数据类型
cookie 和 session 的区别?
cookie 和 session 都是跟踪浏览用户者的
cookie保存在客户端 session保存在服务器端
cookie过期看生成时设置的值 session过期看服务器设定
IP proxy distinction?
透明代理:
最不安全 -爬虫请求数据时会携带真实IP
普通匿名代理
-改变请求, 隐藏真实IP
高匿名代理
-隐藏真实IP, 不改变请求
python 中 有哪些框架和技术被应用于爬虫?
爬虫请求数据 -request, selenium, scrapy
爬虫解析数据 -beautifulsoup, lxml, xpath, re
爬虫存储数据 -pymongo, redis
常见的反爬手段有哪些 及破解办法?
Headers反爬 -User-Agent : 携带正确的User-Agent和使用随机User-Agent列表和fake-useragent
Headers反爬 -cookie : 注册多个帐号获取数据 或 破解JS生成cookie逻辑
Headers反爬 -通过referer栏位: 伪造referer
IP反爬 -IP limitation: IP proxies pool
验证码反爬: pytesseract/ 商业打码平台/ selenium
前端JS加密: 破解JS -pyexeJS/ selenium
如何增量爬取数据? (能够保存上一次的状态)
scrapy-redis 透过url 生成redis 指纹 比对下一次的指纹
这篇关于【金秋打卡】第3天 爬虫面试题笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-15鸿蒙生态设备数量超8亿台
- 2024-05-13TiDB + ES:转转业财系统亿级数据存储优化实践
- 2024-05-09“2024鸿蒙零基础快速实战-仿抖音App开发(ArkTS版)”实战课程已上线
- 2024-05-09聊聊如何通过arthas-tunnel-server来远程管理所有需要arthas监控的应用
- 2024-05-09log4j2这么配就对了
- 2024-05-09nginx修改Content-Type
- 2024-05-09Redis多数据源,看这篇就够了
- 2024-05-09Google Chrome驱动程序 124.0.6367.62(正式版本)去哪下载?
- 2024-05-09有没有大佬知道这种数据应该怎么抓取呀?
- 2024-05-09这种运行结果里的10.100000001,怎么能最快改成10.1?