信息组织定义及原理

2021/9/15 23:07:05

本文主要是介绍信息组织定义及原理,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

信息组织- the Organization of Information

以下大多知识参考于《信息组织》---常春

信息组织的定义

信息组织是指通过对杂乱的信息和数据进行分析,利用相应的技术和方法将其组织成有序的系统的方法。

信息组织在生活中的应用随处可见,例如图书馆图书的排列,班级学生按成绩的排列等。

信息组织的原理和方法

语言学原理

自然语言与检索语言特征

自然语言:日常使用的语言或口语。

人工语言:在自然语言的基础上,对自然语言进行一定地规范化。例如展现在书本上的知识为人工语言。

信息检索语言:具有规范性、唯一性的人工语言,是计算机可理解的语言。

普通用户一般查询使用的是自然语言或者不完全规范化的书面语言,此时用专业术语更能精准查询,如何获得对应的专业术语?可以从对应的专业术语表或叙词表、主题词表。这样的查询可以看作以系统为中心的信息检索,尽量使用计算机能识别的语言;当然现在大多数信息检索网站都以用户为中心,直接输入问题甚至连续输入相关问题也能得到回答。

概念的先组与后组:例如“黑色” “毛衣”2个词经过后组可以表达“黑色毛衣”的含义,反之,“黑色毛衣”也能够作为先组词切分为“黑色” “毛衣”2个词。

计算机语言与检索语言特征

计算语言学的应用:

1.共现或同现:指在一篇文献中,某两个单词或某两个术语总是一同出现,那么它们之间就可能存在关系。如在一篇文献中“知识” “共享”总是同时出现,那么它们之间可能存在相关关系或其它关系。

2.词频的应用:利用计算机的切词、分词软件,去掉文献中的停用词、语气词(网络上可查到停用词表);去掉一些通用含义的高频词,去掉一些低频词,抽取重要的科学术语或知识概念。

3.抽词标引:一篇文章经过计算机切词、词频统计,将文章中的高频词作为标引词(关键词)对这篇文献进行标引,实现文献的智能准确检索。

4.自动分类与自动文摘:自动文摘目前难以达到人工文摘的水平。

检索语言语法句法特征

自然语言存在一词多义及多词一义现象(如苹果可指水果或苹果公司,土豆、马铃薯是指同一种植物)只适用于人工之间的交流。这时便需要具有唯一性和确定性的检索语言来帮助。

如何形成检索语言,需要对词量、词类、词型、词义进行控制,句法控制以及词频控制。例如对文献进行词频统计,一般高词频和词频为1的词不做处理,高词频的词一般为“的”“了”等没有意义的词,词频在20-50次之间的词一般比较常用。

系统论原理

系统论认为任何系统都是有机的整体,它不是各个部分的机械组合或简单相加,系统的整体功能是各要素在孤立状态下无法实现的。

信息检索系统评价指标:Lancaster的评价指标应用比较广泛,如其中的查全率、查准率。

查全率:搜索得出的相关文献数量占系统所有相关文献数量的比率

查准率:搜索得出的相关文献数量占搜索得出文献数量的比率

知识分类原理

知识分类就是对信息的组织一种方式。人类所积累的知识可以按不同领域分类,例如我国将知识分为自然科学、社会科学、哲学和综合性图书等,然后再各类下进行更加细致的分类。

概念逻辑原理

信息组织方法

分类组织法

主题组织法:通过揭示信息主题特征并进行序化的组织方法

集成组织法:在多数情况下将多种方法结合起来使用会达到更好的信息组织的效果

信息组织的应用

图书馆、数字图书馆、互联网、档案馆、美术馆、博物馆等都需要信息组织。了解它才能更好地运用它。



这篇关于信息组织定义及原理的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程