Python爬虫碰到突然缺失某标识后报错:IndexError: list index out of range
2021/7/4 11:21:47
本文主要是介绍Python爬虫碰到突然缺失某标识后报错:IndexError: list index out of range,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
学习爬取豆瓣读书TOP250的时候,想爬取书名和一句话概括的时候,发现有的书没有一句话概括,导致报错:IndexError: list index out of range
图中有一本书没有<P>标签,所以爬到该处就会报错。
当然可以直接用try……except跳过。不过跳过之后该书就无法爬取到,所以可以重新赋值下一句话概括。
import requests import time from lxml import etree if __name__ == '__main__': headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36' } url='https://book.douban.com/top250?start=75' re=requests.get(url,headers=headers).content.decode('utf-8') # print(re) tree=etree.HTML(re) tab=tree.xpath('//*[@id="content"]/div/div[1]/div/table') # print(len(title)) for i in tab: title=i.xpath('.//div[@class="pl2"]/a/text()')[0].strip() try: one=i.xpath('.//p[@class="quote"]/span[@class="inq"]/text()')[0] except: one='这是一个空字符串a' # print(title,one,sep='=====') with open('./douban.txt','a',encoding='utf-8') as fp: fp.write('书名:%s | 一句话概括:%s\n'%(title,one))
刚刚学习,有不对的地方请指正。
这篇关于Python爬虫碰到突然缺失某标识后报错:IndexError: list index out of range的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-08有遇到过吗?同样的规则 Excel 中 比Python 结果大
- 2024-03-30开始python成长之路
- 2024-03-29python optparse
- 2024-03-29python map 函数
- 2024-03-20invalid format specifier python
- 2024-03-18pool.map python
- 2024-03-18threads in python
- 2024-03-14python Ai 应用开发基础训练,字符串,字典,文件
- 2024-03-13id3 algorithm python
- 2024-03-13sum array elements python