DBLP数据集XML使用python SAX解析 作者名字显示错误问题
2021/6/30 20:24:30
本文主要是介绍DBLP数据集XML使用python SAX解析 作者名字显示错误问题,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
问题描述
最近在做实验时处理DBLP XML数据集时,作者名字部分显示不全,比如一些带有特殊符号的作者Michael H. Böhlen解析完后就会变成Michael H. Böhlen。这样会导致一系列的问题,比如解析出来的作者数目比原来的少,原先不同名的作者解析后可能变成同名等等。
解决方法
参考链接:https://blog.csdn.net/wisemanchen/article/details/109140755
之所以出现这个问题是因为dblp数据集中许多作者的名字里面含有阿拉伯文等特殊字符,在xml文件中显示为&xxxl; 具体是作为外部实体定义在“dblp.dtd”文件中,要想正确解析外部实体,需要额外用到class xml.sax.handler.EntityResolver中提供的EntityResolver.resolveEntity(publicId, systemId)函数。另外,setFeature(feature_external_ges, True)这个设置可能也会有影响。
1. 首先引入包
from xml.sax.handler import feature_external_ges
2. 在自定义的handle类中使用解析外部实体的函数 resolveEntity(publicId, systemId) 函数
class authorHandler(xml.sax.ContentHandler): # extract all authors def __init__(self): # your code here def resolveEntity(self, publicID, systemID): print("TestHandler.resolveEntity(): %s %s" % (publicID, systemID)) return systemID def startElement(self, tag, attributes): # your code here def endElement(self, tag): # your code here def characters(self, content): # your code here
3. 在最后xml parser配置时加上 setFeature(feature_external_ges, True) 这句配置。
# set xml parser parser = xml.sax.make_parser() parser.setFeature(xml.sax.handler.feature_namespaces, 0) #only need to add this row in your project parser.setFeature(feature_external_ges, True) handler1 = authorHandler() parser.setContentHandler(handler1) parser.parse('./dblp-2021-03-01.xml')
这篇关于DBLP数据集XML使用python SAX解析 作者名字显示错误问题的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-24Python编程入门指南
- 2024-12-24Python编程基础入门
- 2024-12-24Python编程基础:变量与数据类型
- 2024-12-23使用python部署一个usdt合约,部署自己的usdt稳定币
- 2024-12-20Python编程入门指南
- 2024-12-20Python编程基础与进阶
- 2024-12-19Python基础编程教程
- 2024-12-19python 文件的后缀名是什么 怎么运行一个python文件?-icode9专业技术文章分享
- 2024-12-19使用python 把docx转为pdf文件有哪些方法?-icode9专业技术文章分享
- 2024-12-19python怎么更换换pip的源镜像?-icode9专业技术文章分享