使用 Python 的 Amazon Web Scraper
2022/9/10 14:53:32
本文主要是介绍使用 Python 的 Amazon Web Scraper,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
使用 Python 的 Amazon Web Scraper
Photo by 马吕斯表 on 不飞溅
介绍
网络抓取是任何数据科学家在他们的工具箱中拥有的一项重要技能。 网络抓取可用于收集有关待售产品、用户帖子、图像以及几乎任何其他在网络上有用的数据 .
网络抓取(或数据抓取)是一种用于从互联网收集内容和数据的技术。这些数据通常保存在本地文件中,以便可以根据需要对其进行操作和分析。如果您曾经将网站上的内容复制并粘贴到 Excel 电子表格中,这本质上就是网络抓取,但规模非常小。
对于网络抓取,需要考虑几个不同的库,包括:
- 美丽的汤
- 要求
- 刮擦
- 硒
在这个例子中,我们将使用 Beautiful Soup。
概括
- 导入库
- 用户代理
- 检查网页
- 创建 CSV 文件
- 结论
1.导入库
首先,我们将导入所需的库。
**从** BS4 **进口** 美丽汤 **进口** 要求 **进口** 时间 **进口** 约会时间 **进口** smtplib
2. 用户代理
复制并粘贴我们要废弃的网站的链接。然后,我们从计算机中获取“标题”,即“用户代理”,通过 这里 .
网址 **=** 'https://www.amazon.com/Funny-Data-Systems-Business-Analyst/dp/B07FNW9FGJ/ref=sr_1_3?dchild=1&keywords=data%2Banalyst%2Btshirt&qid=1626655184&sr=8-3&customId=B0752XJYNL&th=1' 标题 **=** {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate" , "接受":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "升级不安全请求":"1"} 页 **=** 要求 **.** 获取(网址,标题 **=** 标题)
3.检查网页
现在我们开始实际使用 Beautiful Soup 库。
汤1 **=** 美丽汤(页 **.** 内容,“html.parser”) 汤2 **=** 美丽汤(汤1 **.** 美化(),“html.parser”) 标题 **=** 汤2 **.** 找到(身份证 **=** '产品标题') **.** 获取文本() 价格 **=** 汤2 **.** 找到(身份证 **=** 'priceblock_ourprice') **.** 获取文本() 打印(标题) 打印(价格)
我们得到的输出是:
有趣的得到数据 MIS 数据系统业务分析师 T 恤 16.99 美元
4. 创建 CSV 文件
下一步是为输出创建时间戳以跟踪收集数据的时间。
**进口** 约会时间 今天 **=** 约会时间 **.** 日期 **.** 今天() 打印(今天)
我们将数据附加到 cs 五。
**和** open('AmazonWebScraperDataset.csv', 'a+', 换行 **=** '', 编码 **=** 'UTF8') **作为** F: 作家 **=** CSV **.** 作家(女) 作家 **.** 写手(数据)
现在我们可以可视化我们抓取的数据。
**进口** 熊猫 **作为** PD df **=** PD **.** read_csv(r'C:\Users\Alysson\AmazonWebScraperDataset.csv') 打印(df)
5. 结论
这是我们可以用来在互联网上废弃数据的方法之一。我希望这很清楚。一个好的数据科学家必须知道如何使用上面提到的各种方法。完整代码可以访问 这里 .
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/23550/25301001
这篇关于使用 Python 的 Amazon Web Scraper的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-23使用python部署一个usdt合约,部署自己的usdt稳定币
- 2024-12-20Python编程入门指南
- 2024-12-20Python编程基础与进阶
- 2024-12-19Python基础编程教程
- 2024-12-19python 文件的后缀名是什么 怎么运行一个python文件?-icode9专业技术文章分享
- 2024-12-19使用python 把docx转为pdf文件有哪些方法?-icode9专业技术文章分享
- 2024-12-19python怎么更换换pip的源镜像?-icode9专业技术文章分享
- 2024-12-19Python资料:新手入门的全面指南
- 2024-12-19Python股票自动化交易实战入门教程
- 2024-12-19Python股票自动化交易入门教程