Python爬虫实战:应用宝APP数据信息采集
2021/9/19 17:06:30
本文主要是介绍Python爬虫实战:应用宝APP数据信息采集,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
应用宝app数据采集
- 工具准备
- 项目思路解析
- 简易源码分析
工具准备
数据来源: 应用宝
开发环境:win10、python3.7
开发工具:pycharm、Chrome
项目思路解析
明确需要采集的数据:
- app的下载地址
- app的下载次数
- app的名字
- app的开发公司
提取到页面的分类标签
获取到a标签的href属性
用于之后拼接动态地址
找到动态加载的app数据加载地址
url的值是每个分类标签的值
https://sj.qq.com/myapp/cate/appList.htm?orgame=1&categoryId=-10&pageSize=20&pageContext=undefined
拼接新的url值发送请求
简易源码分析
import requests # 工具包发送网络请求 from lxml import etree # 转换成对象 import csv # 处理表格数据 url = "https://sj.qq.com/myapp/category.htm?orgame=1" response = requests.get(url) html_data = etree.HTML(response.text) li_list = html_data.xpath('//ul[@data-modname="cates"][position()>1]/a/@href') del(li_list[-1]) for url1 in li_list: for i in range(10): new_url = "https://sj.qq.com/myapp/cate/appList.htm" + url1 + "&pageSize=20&pageContext={}".format(i*20) res = requests.get(new_url).json() if res["count"] == 0: break with open("应用宝.csv", "a", newline="", encoding="utf-8")as f: csv_data = csv.DictWriter(f, fieldnames=["appName", 'authorName', "apkUrl"]) for info in res["obj"]: appName = info['appName'] authorName = info['authorName'] apkUrl = info['apkUrl'] print({"appName": appName, "authorName": authorName, "apkUrl": apkUrl}) csv_data.writerow({"appName": appName, "authorName": authorName, "apkUrl": apkUrl})
这篇关于Python爬虫实战:应用宝APP数据信息采集的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-23使用python部署一个usdt合约,部署自己的usdt稳定币
- 2024-12-20Python编程入门指南
- 2024-12-20Python编程基础与进阶
- 2024-12-19Python基础编程教程
- 2024-12-19python 文件的后缀名是什么 怎么运行一个python文件?-icode9专业技术文章分享
- 2024-12-19使用python 把docx转为pdf文件有哪些方法?-icode9专业技术文章分享
- 2024-12-19python怎么更换换pip的源镜像?-icode9专业技术文章分享
- 2024-12-19Python资料:新手入门的全面指南
- 2024-12-19Python股票自动化交易实战入门教程
- 2024-12-19Python股票自动化交易入门教程