唤醒手腕Python网络爬虫学习笔记(学习中,更新中)
2021/12/23 17:09:07
本文主要是介绍唤醒手腕Python网络爬虫学习笔记(学习中,更新中),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
唤醒手腕Python爬虫学习笔记
1、基础知识点
字符串的分割
webString = 'www.baidu.com' print(webString.split('.')) # ['www', 'baidu', 'com']
字符串前后空格的处理,或者特殊字符的处理
webString = ' www.baidu.com ' print(webString.strip()) # www.baidu.com webString = '!*www.baidu.com*!' print(webString.strip('!*')) # www.baidu.com
字符串格式化
webString = '{}www.baidu.com'.format('https://') print(webString) # https://www.baidu.com
自定义函数
webString = input("Please input url = ") print(webString) def change_number(number): return number.replace(number[3:7], '*'*4) print(change_number("15916881234")) # 159****1234
2、基本爬虫操作
首先安装request第三方的库
GuessedAtParserWarning: No parser was explicitly specified 未添加解析器
基本请求的案例
import requests link = "http://www.santostang.com/" headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'} data = requests.get(link, headers=headers) print(data.text)
完整代码展示
import requests from bs4 import BeautifulSoup link = "http://www.santostang.com/" headers = { 'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'} data = requests.get(link, headers=headers) soup = BeautifulSoup(data.text, "html.parser") print(soup.find("h1", class_="post-title").a.text) # 第四章 – 4.3 通过selenium 模拟浏览器抓取
这篇关于唤醒手腕Python网络爬虫学习笔记(学习中,更新中)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-10-04Python外包有哪些常见的主要库-icode9专业技术文章分享
- 2024-10-02基于深度学习的钢铁缺陷检测系统(yolov8、注意力机制、PyQt5界面、Python)
- 2024-10-01怎么用python搭建一个系统-icode9专业技术文章分享
- 2024-09-30Python基础入门教程
- 2024-09-30获取参数学习:Python中的基础教程
- 2024-09-30Python编程基础详解
- 2024-09-29点击加载学习:Python编程基础教程
- 2024-09-29数据科学五大Python前端库:第二部分
- 2024-09-27使用python 将ETH账户的资产打散
- 2024-09-26Python编程基础