利用免费工具爬取关键词（数据）的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词：爬虫、读书、实用、生活

2021/5/10 2:25:30

编程Tag： 数据 mysql excel 评分关键词采集读书八爪

本文主要是介绍利用免费工具爬取关键词（数据）的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词：爬虫、读书、实用、生活，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

原始需求：

需求解读：

所需软件配置：

软件介绍

八爪鱼

Excel

Navicat

Mysql

数据采集及保存

步骤1 探索搜索页面规律

步骤二八爪鱼批量生成链接，添加参数（前缀+尾巴）

步骤三采集数据（书名、评分、评分人数、详情链接）

步骤四评分人数采集处理

步骤五导出Excel/导入Mysql

A：导出到Excel

B：导入Mysql

小结

原始需求：

最近单位有购书计划，想选几本关于数据的还不错的书看看，去某东、某猫、某当网，发现销量高的在豆瓣上大家对书的评论不一定好，但豆瓣关键词搜索又没有评分排序功能，还得考虑评论人数的影响，这样一个个看太慢，要疯了！

需求解读：

审题：想选几本关于数据的还不错的书看看，发现销量高的在豆瓣上大家对书的评分不一定好，但豆瓣关键词搜索又没有评分排序功能，还得考虑评论人数的影响，这样一个个看太慢

目标页面：豆瓣、关键词数据搜索

目标信息：评分、评论人数、图书链接

实施方案：利用爬取工具八爪鱼，实现数据快速抓取，并导出Excel进行快速筛选；也可以导入Mysql数据库作为本示例的一个拓展。

所需软件配置：

八爪鱼	8.2.2.111911
Excel	随意
Navicat	12.0.11(64位）
mysql	5.7.21-log

软件介绍

八爪鱼

不好意思，放错了。

Excel

Navicat

Mysql

数据采集及保存

步骤1 探索搜索页面规律

打开豆瓣读书，搜索关键词：数据，观察搜索结果第一、二、三页。

发现规律没有，第2页的页面与第1页的页面只是尾巴处相差15，第3页与第2页间隔也是15，不难发现15是一页所包含的书信息数，截至写文章前一共134页，故134*15 = 1995是最后一页。

现在我们可以找到所有搜索页面的规律，把网页看成前缀+尾巴的形式，那么前缀就是：https://search.douban.com/book/subject_search?search_text=%E6%95%B0%E6%8D%AE&cat=1001&start=，尾巴（起：0~终：1995）

步骤二八爪鱼批量生成链接，添加参数（前缀+尾巴）

这样，我们就得到了生成的网址，当然不嫌麻烦也可以自己动手134个！

步骤三采集数据（书名、评分、评分人数、详情链接）

选择全部就获得了书名和链接两个信息列，如法炮制依次可以点击评分和评分人数来获取评分、评分人数。

步骤四评分人数采集处理

注意到评价人数的形式为“（XXX人评价）”，为了后续更方便的处理数据（对评分人数进行筛选），我们将评分人数的数据进行正则化处理，将其变成“XXX”最好。

依次按照上图进行操作，可以进入正则表达式匹配，具体啥是正则表达式，大家可以参考链接：正则表达式 - 语法——菜鸟教程：https://www.runoob.com/regexp/regexp-syntax.html

这个时候可能有懒人就跳出来了，那我不会咋办呢，也有办法，继续往下看：

我们的目的说白了就是把（***人评论）里面的***数字部分提取出来，那么我们把这个表达式看成"(" 、”***”、“人评论）”三部分，那么我告诉正则工具起是“（”，结束是“人”就好了。这样数字就提取出来了。按照第一步就自动自动自动（重要的事情说三次）生成了右下角的正则表达式！到了第三步点击匹配再看看匹配结果是不是514即可！