对于下发的文件进行爬取,减少人去下载的过程
2021/6/4 18:23:29
本文主要是介绍对于下发的文件进行爬取,减少人去下载的过程,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
对于政府网站下发的文件进行爬取,减少人去下载的过程博问上有人不会,我写了一下
绝对不要加多线程多线程进去
仅供学习,不要用于商业目的
import re import requests from lxml.html import etree url = 'http://www.liyang.gov.cn/default.php?mod=article&fid=163250&s99679207_start=0' rp = requests.get(url) re_html = etree.HTML(rp.text) url_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/@href' title_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/text()' url_list = re_html.xpath(url_xpath) title_list = re_html.xpath(title_xpath) title_list = title_list[::-1] data_url_list = [] for url_end in url_list: new_url = f'http://www.liyang.gov.cn/{url_end}' print(new_url) rp_1 = requests.get(new_url) print(rp_1.text) try: re_1_html = etree.HTML(rp_1.text) data_url_xpth = '//tbody/tr[1]/td[2]/a' data_url = re_1_html.xpath(data_url_xpth)[0] except: data_list = re.findall('<a href="(.*?)" target="_blank">', rp_1.text) data_url = data_list[0] print(data_url) data_url = f'http://www.liyang.gov.cn/{data_url}' re = requests.get(data_url) data = re.content with open(f'{title_list.pop()}.pdf', 'wb') as fw: fw.write(data)
这篇关于对于下发的文件进行爬取,减少人去下载的过程的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-01成为百万架构师的第一课:设计模式:Spring中的设计模式
- 2025-01-01一个基于注解驱动的可视化的DDD架构-超越COLA的设计
- 2025-01-01PlantUML 时序图 基本例子
- 2025-01-01plantuml 信号时序图
- 2025-01-01聊聊springboot项目如何优雅进行数据校验
- 2024-12-31自由职业者效率提升指南:3个时间管理技巧搞定多个项目
- 2024-12-31适用于咨询行业的项目管理工具:提升跨团队协作和工作效率的最佳选择
- 2024-12-31高效协作的未来:2024年实时文档工具深度解析
- 2024-12-31商务谈判者的利器!哪 6 款办公软件能提升春节合作成功率?
- 2024-12-31小团队如何选择最实用的项目管理工具?高效协作与任务追踪指南