对于下发的文件进行爬取,减少人去下载的过程
2021/6/4 18:23:29
本文主要是介绍对于下发的文件进行爬取,减少人去下载的过程,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
对于政府网站下发的文件进行爬取,减少人去下载的过程博问上有人不会,我写了一下
绝对不要加多线程多线程进去
仅供学习,不要用于商业目的
import re import requests from lxml.html import etree url = 'http://www.liyang.gov.cn/default.php?mod=article&fid=163250&s99679207_start=0' rp = requests.get(url) re_html = etree.HTML(rp.text) url_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/@href' title_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/text()' url_list = re_html.xpath(url_xpath) title_list = re_html.xpath(title_xpath) title_list = title_list[::-1] data_url_list = [] for url_end in url_list: new_url = f'http://www.liyang.gov.cn/{url_end}' print(new_url) rp_1 = requests.get(new_url) print(rp_1.text) try: re_1_html = etree.HTML(rp_1.text) data_url_xpth = '//tbody/tr[1]/td[2]/a' data_url = re_1_html.xpath(data_url_xpth)[0] except: data_list = re.findall('<a href="(.*?)" target="_blank">', rp_1.text) data_url = data_list[0] print(data_url) data_url = f'http://www.liyang.gov.cn/{data_url}' re = requests.get(data_url) data = re.content with open(f'{title_list.pop()}.pdf', 'wb') as fw: fw.write(data)
这篇关于对于下发的文件进行爬取,减少人去下载的过程的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-09-28微服务架构中API版本控制的实践
- 2024-09-28AI给的和自己写的Python代码,都无法改变输入框的内容,替换也不行
- 2024-09-27Sentinel配置限流资料:新手入门教程
- 2024-09-27Sentinel配置限流资料详解
- 2024-09-27Sentinel限流资料:新手入门教程
- 2024-09-26Sentinel限流资料入门详解
- 2024-09-26Springboot框架资料:初学者入门教程
- 2024-09-26Springboot框架资料详解:新手入门教程
- 2024-09-26Springboot企业级开发资料:新手入门指南
- 2024-09-26SpringBoot企业级开发资料新手指南