php实现爬虫
2021/7/28 11:05:58
本文主要是介绍php实现爬虫,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
爬虫技术
简介
目前主流实现爬虫的方法都是使用pathon,但是不一定只有pathon,php也有很多爬虫工具,比如自带的curl,还有querylist,都能实现爬虫,只要能够实现爬数据,不要用什么样的方法都行。
querylist使用
QUERYLIST官方文档,先可以看下文档,熟悉一下,任务框架都可以使用
快速使用
过程很简单,看下文档基本上能够使用,
安装
使用compser安装composer require jaeger/querylist
爬取接口
use QL\QueryList; public function data(){ $arr = [ 'page' => 10, 'limit' => 1 ]; //请求参数 $hearders = [ 'headers' => [ 'token' => 'eyJhbGciOiJIUzI1NiJ9.eyJqdGkiOiIxNDEwNDI2MTU0MDM5NDMxMTY5IiwiaWF0IjoxNjI2ODUwMjcwLCJzdWIiOiJkNDkzOTJmNWYyOWI4YjMxNzI0OGEwMmY3MzY3Yjk4NDlhZmRjZGY1IiwiZXhwIjoxNjI5NDQyMjcwfQ.ie5Kw9n3NSz3qPsBNxj30ztBvUUDD0zkOAt-ls8dS2E' ] ]; //设置请求头,根据不同网站设置 $mes = QueryList::get('https://app.shapil.cn/app',$arr,$hearders); $res = json_decode($mes->getHtml(),true); //如果是抓接口,记得encode, //接下来就看你自己的处理,可以保存到数据库什么的 // to do something }
爬取网页
<?php use QL\QueryList; //采集某页面所有的图片 $data = QueryList::get('http://cms.querylist.cc/bizhi/453.html')->find('img')->attrs('src'); //打印结果 print_r($data->all()); //采集某页面所有的超链接和超链接文本内容 //可以先手动获取要采集的页面源码 $html = file_get_contents('http://cms.querylist.cc/google/list_1.html'); //然后可以把页面源码或者HTML片段传给QueryList $data = QueryList::html($html)->rules([ //设置采集规则 // 采集所有a标签的href属性 'link' => ['a','href'], // 采集所有a标签的文本内容 'text' => ['a','text'] ])->range('li')->query()->getData(); //打印结果 print_r($data->all());
自动化运行
会爬取数据了,也得知道怎么自动化运行,我刚开始是把它写个接口,后来发现这样不行,接口容易超时,只有通过控制台命令,让他一直执行下去
TP6命令行
这篇关于php实现爬虫的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-11开源 PHP 商城项目 CRMEB 二次开发和部署教程
- 2024-11-09怎么使用php在kaufland平台刊登商品?-icode9专业技术文章分享
- 2024-11-05PHP的抽象类和接口是什么,有什么区别-icode9专业技术文章分享
- 2024-11-01开源 PHP 商城项目 CRMEB 安装和使用教程
- 2024-11-01用php和mysql写无限分类,有哪几种方法-icode9专业技术文章分享
- 2024-10-31php数据分表导出时部分数据无法导出什么原因-icode9专业技术文章分享
- 2024-10-30有经验的 PHP 开发者学习一门新的编程语言,有哪些推荐的有前景的语言-icode9专业技术文章分享
- 2024-10-21php 检测图片是否篡改过-icode9专业技术文章分享
- 2024-10-20fruitcake/php-cors 该怎么使用-icode9专业技术文章分享
- 2024-10-18PHP7.1可以使用哪个版本的swoole-icode9专业技术文章分享