租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息
2021/7/21 17:06:11
本文主要是介绍租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
目录
- 前言
- 一、查找数据所在位置:
- 二、确定数据存放位置:
- 三、获取html数据:
- 四、解析html,提取有用数据:
前言
贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么难赚,到现在的啪啪打脸,就很真实,租房现在更是人生大事,在这拥挤的城市,都想先拥有一个属于自己的空间,今天小编就来爬取链家二手房的数据,既能达到省钱又能免了很多去看房的时间,提前了解二手房的数据,不入坑,不进坑。
一、查找数据所在位置:
打开链家官网,进入二手房页面,选取某个城市,可以看到该城市房源总数以及房源列表数据。
二、确定数据存放位置:
某些网站的数据是存放在html中,而有些却api接口,甚至有些加密在js中,还好链家的房源数据是存放到html中:
三、获取html数据:
通过requests请求页面,获取每页的html数据
# 爬取的url,默认爬取的南京的链家房产信息 url = 'https://nj.lianjia.com/ershoufang/pg{}/'.format(page) # 请求url resp = requests.get(url, headers=headers, timeout=10)
四、解析html,提取有用数据:
通过BeautifulSoup解析html,并提取相应有用的数据
soup = BeautifulSoup(resp.content, 'lxml') # 筛选全部的li标签 sellListContent = soup.select('.sellListContent li.LOGCLICKDATA') # 循环遍历 for sell in sellListContent: # 标题 title = sell.select('div.title a')[0].string # 先抓取全部的div信息,再针对每一条进行提取 houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings) # 楼盘名字 loupan = houseInfo[0] # 对楼盘的信息进行分割 info = houseInfo[0].split('|') # 房子类型 house_type = info[1].strip() # 面积大小 area = info[2].strip() # 房间朝向 toward = info[3].strip() # 装修类型 renovation = info[4].strip() # 房屋地址 positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings)) # 房屋总价 totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings)) # 房屋单价 unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]
希望给在他乡因为租房迷茫的小伙伴有帮助,学习Python不仅可以帮助我们的工作,对于生活上也有很多便利。
点击领取学习资源 (●’◡’●)ノ♥
Python解答,遇到问题不要慌,来这里~
基础学习资料,数据分析,爬虫等视频,来这里~
相亲相爱,互帮互助的技术交流,Q群:943192807,来这里~
这篇关于租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-03用FastAPI掌握Python异步IO:轻松实现高并发网络请求处理
- 2025-01-02封装学习:Python面向对象编程基础教程
- 2024-12-28Python编程基础教程
- 2024-12-27Python编程入门指南
- 2024-12-27Python编程基础
- 2024-12-27Python编程基础教程
- 2024-12-27Python编程基础指南
- 2024-12-24Python编程入门指南
- 2024-12-24Python编程基础入门
- 2024-12-24Python编程基础:变量与数据类型