网站首页 站内搜索

搜索结果

查询Tags标签: 爬虫,共有 1613条记录
  • 16.Python爬虫:抓取多级页面数据

    前面讲解的爬虫案例都是单级页面数据抓取,但有些时候,只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。在爬虫的过程中,多级页面抓取是经常遇见的。下面以抓取二级页面为例,对每级页面的作用进行说明:一级页面提供了获取二级页面的…

    2022/8/2 1:24:31 人评论 次浏览
  • 爬虫练手

    import urllib.parse import urllib.request import jsoncontent = input("请输入要翻译的内容:") url = "https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule" data = {i: content, from: AUTO, to: AUTO, smartresult:…

    2022/8/1 6:22:46 人评论 次浏览
  • 4、python爬虫学习——requests肯德基餐厅

    import requestsimport jsonheader = {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36}post_url = http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keywordkw = input(Enter c…

    2022/7/20 9:19:38 人评论 次浏览
  • 爬虫(14) - Scrapy-Redis分布式爬虫(1) | 详解

    1.什么是Scrapy-RedisScrapy-Redis是scrapy框架基于redis的分布式组件,是scrapy的扩展;分布式爬虫将多台主机组合起来,共同完成一个爬取任务,快速高效地提高爬取效率。 原先scrapy的请求是放在内存中,从内存中获取。scrapy-redisr将请求统一放在redis里面,各个主机查…

    2022/7/7 2:21:35 人评论 次浏览
  • 爬虫实战(五):爬豆瓣top250

    目录爬虫实战(五):爬豆瓣top250一、网址分析1、 页面分析2、 源码分析3、 内容解析4、 链接分析二、编写代码1、 获取每页url2、 获取ol里面的li标签3、 获取数据4、 数据清洗三、完整代码 爬虫实战(五):爬豆瓣top250 一、网址分析 1、 页面分析 通过抓包分析,可得…

    2022/7/6 23:31:06 人评论 次浏览
  • 基于后端和爬虫创建的代理ip池

    搭建免费的代理ip池需要解决的问题:使用什么方式存储ip文件存储 缺点: 打开文件修改文件操作较麻烦mysql 缺点: 查询速度较慢mongodb 缺点: 查询速度较慢. 没有查重功能redis --> 使用redis存储最为合适所以 -> 数据结构采用redis中的zset有序集合获取ip的网站http…

    2022/7/5 23:23:16 人评论 次浏览
  • 爬虫(5) - 网页数据解析(1) | XPath在爬虫中的应用

    什么是XPathXPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点 实际上,XPath也适用于定位HTML中的节点节点及节点间的关系在HTML中,节点就是一个个HTML标签 分析节点间的关系也就是要清楚HTML文档中各标签间的关系 理清这些关系对于书写XPath路径…

    2022/7/4 23:20:22 人评论 次浏览
  • Scrapy的基本使用

    一、基本命令创建项目scrapy startproject xxx 创建爬虫scrapy genspider xxx 运行相应爬虫scrapy crawl xxx二、相关文件 1、相应的爬虫文件名称为自己创建的的xxx.py 2、爬虫项目的配置文件setting.pyROBOTSTXT_OBEY 是否遵循robots.txt协议 USER_AGENT 爬虫请求时的请求…

    2022/7/4 6:21:48 人评论 次浏览
  • 20220703 爬虫&数据处理

    1、 昨天已经获取到数据,今天发现dataframe数据单列数据存储在一行中,分列不太好分,我上网查了下。从列表转换为dataframe,正常是存储为一行,需要转置下发现确实变成逗号分开的形式了。代码如下:data = get_data() df = pd.DataFrame(data=[data],index=[a]).T prin…

    2022/7/3 23:23:08 人评论 次浏览
  • python并发编程实战(五):python实现生产者、消费者爬虫

    多组建的pipline技术架构生产者消费者爬虫的架构多进程数据通信的queue.Queue线程安全:指的是多个线程不会冲突 get和put方法是阻塞的:当里面没有数据的时候,q.get()会卡住,直到里面有了数据把它取出来,q.put()当队列满了以后会卡住,直到有一个空闲的位置才能put进去…

    2022/7/3 14:21:18 人评论 次浏览
  • Python 数据采集的介绍

    Python 数据采集的介绍 1.爬虫是什么 概念:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 2.爬虫的合法性 2.1 风险爬虫干扰了被访问网站的正常运营 抓取了受到法律保护的特定类型的数据信息2.2 使用优化程序,避免干扰被访问网站的正常运行。 使用…

    2022/7/2 1:24:04 人评论 次浏览
  • python爬虫代码常见报错处理

    ## 报错处理**FAKE-USERAGENT MAXIMUM AMOUNT OF RETRIES REACHED**解决方案:1. 在python安装路径下找到fake-useragent2. 在fake-useragent包下找到settings.py3. 找到代理连接地址:https://fake-useragent.herokuapp.com/browsers/0.1.11(对应版本)4. 另存为json文件…

    2022/6/30 1:20:21 人评论 次浏览
  • 章节十四:Scrapy框架

    章节十四:Scrapy框架 目录章节十四:Scrapy框架1. Scrapy是什么1.1 Scrapy的结构1.2 Scrapy的工作原理2. Scrapy的用法2.1 明确目标与分析过程2.2 代码实现——创建项目2.3 代码实现——编辑爬虫2.4 代码实现——定义数据2.5 代码实操——设置2.6 代码实操——运行3. 代码…

    2022/6/28 23:29:45 人评论 次浏览
  • 爬虫课程笔记

    2022/6/28 23:20:14 人评论 次浏览
  • 85行代码实现多线程+数据文件操作+数据库存储的爬虫实例

    写在前面 这是我在接触爬虫后,写的第二个爬虫实例。 也是我在学习python后真正意义上写的第二个小项目,第一个小项目就是第一个爬虫了。 我从学习python到现在,也就三个星期不到,平时课程比较多,python是额外学习的,每天学习python的时间也就一个小时左右。 所以我目…

    2022/6/28 2:22:48 人评论 次浏览
扫一扫关注最新编程教程