自然语言处理 Paddle NLP - 信息抽取技术及应用
2023/6/20 11:23:20
本文主要是介绍自然语言处理 Paddle NLP - 信息抽取技术及应用,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1.什么是信息抽取
即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)
2.实体抽取
3.关系抽取
4.事件抽取
信息抽取和知识图谱是一个上下游的关系。抽取的结果,可以组装成知识图谱(一种存储知识的结构)
医疗、金融、法律,三大行业用得比较多
从问诊中抽取信息
贷款审核,大量的纸质、DPF文件,需要将里面的信息进行匹配审核
根据抽取结果在不在原文中对信息抽取分类
这次我们只关注抽取式,不在原文中的情况需要参考生成方法
- 抽取式:结果在原文中
- 生成式:结果不在原文中,如果生成的结果需要一个知识做为辅助,就需要知识图谱,很多时候不需要知识图谱
抽取式分类
- 实体抽取
- 关系抽取
- 事件抽取
信息抽取的通用评测指标,所有的信息抽取都可以用它评
Precision:抽取出来的结果,抽出来10个,5个对的,就是 50%
Recall:关注模型漏了哪些东西,指标0~1,数值越高,模型越好
F1:Precision和Recall的综合平均,是两个的综合反映
抽取模型的关键要素:解码设计
实体抽取
从一段文本中抽取出文本内容,并识别为预定义的类别
一般是 BIO 解码方式 + CRF 模型结构
复杂的实体抽取,无法用 BIO 直接解决(用到关系抽取)
复杂实体抽取中的问题1:重叠嵌套
复杂实体抽取中的问题2:不连续
关系抽取
从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)
关系分类是关系抽取的第二步
解码设计
训练集需要人工标注或其它标注
简单关系抽取
复杂关系抽取,将 CRF 升级成 Sigmoid,判断大于 0.5 是一个类别,小于则不是
实体对组合
效果最好的模型,可以预测很多个类别
SPO 主谓宾
事件抽取
从一段文本中抽取出预定义的事件触发词和事件要素,组合为相应的结构化信息除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以拆成关系抽取
这篇关于自然语言处理 Paddle NLP - 信息抽取技术及应用的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-23JAVA语音识别项目入门教程
- 2024-11-23Java云原生学习:从入门到实践
- 2024-11-22Java创业学习:初学者的全面指南
- 2024-11-22JAVA创业学习:零基础入门到实战应用教程
- 2024-11-22Java创业学习:从零开始的Java编程入门教程
- 2024-11-22Java对接阿里云智能语音服务学习教程
- 2024-11-22JAVA对接阿里云智能语音服务学习教程
- 2024-11-22Java对接阿里云智能语音服务学习教程
- 2024-11-22Java副业学习:零基础入门到实战项目
- 2024-11-22Java副业学习:零基础入门指南