医药信息处理与分析
上QQ阅读APP看书,第一时间看更新

1.1 信息的概念及相关知识

1.1.1 信息的概念

信息是自然界和人类社会的一个重要范畴,也是客观存在的一种基本现象。一般意义下信息的概念是指消息、情报,是互相交流中要传递的某种内容,与知识、见闻、通知、情报、事实、数据等概念在某些场合中常会交叉互用。通信意义上的信息是指在通信的任何可逆的重新编码或翻译中那些保持不变的东西。在通信技术领域,1948年,香农在《贝尔系统技术杂志》上发表的“通信的数学理论”一文中提出“信息是使(通信系统中)不确定程度减小的量”。“不确定程度”指通信系统中未收到有关信源信号的状态,在收到信号后,系统的有序程度增加,不确定程度减少。情报科学领域常用数据(Data)、信息(Information)和知识(Knowledge)这一组概念来表达情报领域中传输的内容。美国的情报学家麦克唐纳认为:“信息是特定情况下评价未经评价的数据的东西,知识是在一般使用过程中评价这种数据的东西”。而现代哲学认为,信息是与物质和能量并存的一种自然现象,是物质和意识存在方式的表现,同时也是物质和意识的桥梁。宇宙间一切事物都处于相互联系、相互作用之中,信息就是对事物之间相互联系、相互作用的状态的描述;从微观世界到宏观世界,从无机世界到有机世界,从植物到动物,从机器到人,都能产生信息,也能接收信息。正因为如此,信息成为了许多学科的研究对象,不同领域的学者都从不同的角度来研究信息。

1.1.2 信息的基本特征

信息是不同于物质和能量的一种特殊的资源,它具有可存储性、可传递性、可加工性、共享性、时效性和可替代性六大基本特征。

(1)可存储性。信息借助载体可在一定条件下存储起来。信息的可存储性为信息的积累、加工和不同场合下的应用提供了可能。

(2)可传递性。传递是信息存在的基本状态之一,信息传递的基本要求是速度快。传递具有动态性和方向性特征。信息的传递依赖于物质媒介。信息的传递必然伴随着物质或能量的传递,并且须消耗一定的能量。传递的基本方式有物质的传递和能量的传递两大类。物质传递较为显见,如运输、交通等。而能量的传递则不易察觉,如阳光照耀,多米诺骨牌等。信息传递的方式是多种多样的。按照流向的不同,可以有单向传递、反馈传递和双向传递三种方式。按信息传递时信息量的集中程序不同,有集中和连续两种方式。按信息传递范围或与环境关系的不同,可有内部传递和外部传递两种方式。

(3)可加工性。信息可以通过一定的手段进行加工,如扩充、压缩、分解、综合、抽取、排序等。加工的方法和目的反映信息接收者获取和利用信息的特定需求。加工后的信息是反映信息源和接收者之间相互联系、相互作用的更为重要和更加规律化的因素。应当注意的是,信息的内容是语法、语义和语用三者的统一体。信息在加工过程中要注意保证上述三者的统一,以免造成信息的失真,即原始信息(加工前的信息)的有些内容丢失或被歪曲。

(4)共享性。一个信息源的信息可以为多个信息接收者享用。一般情况下增加享用者不会使原有享用者失去部分或全部信息。一些特殊的信息和特殊形式的信息在共享上存在明显的障碍,但并不影响信息共享性这一本质属性。有的信息涉及商业的、政治的、军事的秘密,扩大对这类信息的享有者范围,可能影响某些享用者对这类信息的利用,但不会改变信息本身的内容。这是信息不同于物质和能量的一个本质特征。共享性指接收者在获得全部的信息的同时而不会减少信息的信息量(指记忆信源,如文献等)。并且,数个接收者可以获得同一信源发出的同样的信息。

(5)时效性。信息的时效性表现是多种多样的。例如,信息的滞后性是表明客观事物总是在前,认识总是在后,人类获得信息总是滞后的。例如,各种星体信息,即使是以光速传播,在人类接收到时,也是滞后的,也正是这种滞后性,使人们可以了解到不同历史时期的星体特征。超前性是指人类在把握各种规律的前提下,能够对发展中的事物进行预测。此外,信息在一定时间内相对说来会变成过时的信息,尤其是经济信息的有效期非常短。例如,国际金融市场信息的时滞一般不应超过6小时,否则,过了时限的信息,再详尽也只是昨日的黄花,非但无用,反而会使人做出错误的决定。大多数经济活动过程都很短暂,如国际股票交易市场的变化往往发生在几秒钟内。但某些信息的时效性却表现在越古老的信息越有价值,如考古研究等。任何信息从信息源传播到接收者都要经过一定的时间。信息接收者所得到的与自己有关的信息源的状况的信息都是反映信息源已经出现的状况。时滞的大小与载体运动特性和通道的性质有关。(技术性强)信息的传输、加工与利用都必须考虑这种时滞效应,特别对于需要实时或及时处理与利用的信息,必须通过合理选用载体与通道来把这种时滞控制在允许的范围内。

(6)可替代性。人的任何行为,都可以概括为一个不断从外界获取信息,对信息进行处理,并在这个基础上,通过一定的物质和能量,对事物进行调整、控制和组织行动的过程。因此,信息具有替代性。它可以替代资本、劳动力或其他有形的物质。最简单的事实是把信息编成程序,输入计算机,就可以在工厂、矿山、交通运输、商业、医疗乃至家庭等各个领域代替人的劳动。信息可以在不同的层次上,在不同的状态之间和不同的信号系统之间进行转换。如自然语言和机器语言的转化属于不同的层次之间的转换;不同状态:光电信号转换,电声转换;不同的信号系统:不同的语种,方言等。可替代性的作用是使得信息能以不同的方式存储和传递,使信息的处理有可能得以实现,也使得各种交流方式得以存在。

1.1.3 信息、数据与知识的关系

数据是事实或观察的结果,它是对客观事件的记录和可以鉴别的符号。数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,是客观事物的属性、数量、位置及其相互关系的抽象表示,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。例如,“0、1、2…”“心、肝、脾、肺、肾”“病人的病历记录、CT扫描片子”等都是数据。数据的表现形式还不能完全表达其内容,需要经过解释,数据和关于数据的解释是不可分的。例如,“75”是一个数据,可以是某人的成绩,也可以是其体重,还可以是汽车的速度。数据的解释是指对数据含义的说明,数据的含义称为数据的语义,数据与其语义是不可分的。数据都有其属性和客观值,如“年龄25岁”,其“年龄”是数据的属性名称,“25岁”是数据的客观值。因此说数据是对客观事物的属性、数量、位置及其相互关系的一种抽象的描述,数据是事物原始性状的记载,没有经过任何加工处理,数据是杂乱的,但它是真实的、可靠的,并且具有累积的价值。数据是信息的表达载体,信息是数据的内涵,是形与质的关系。知识是经人为组织的可理解的系统信息,与信息不属同一范畴。知识是相对的,因人而异,因时而异,因地而异,属于意识范畴,具有主观的特征。而信息是绝对的,是客观的。信息是构成知识的基本要素,没有信息就没有知识可言。信息可以通过信息仪器设备获取;而知识则必须通过学习获得。

信息与数据、知识密切相关,是在不同层次上对事物的认识。要从数据中获得认知,需要对掺有大量杂质的数据进行清洗,以形成干净的数据。干净的数据也意味着数据的质量高,干扰少,从数据中获取的信息价值高,所形成的认知更具应用意义。由图 1-1 数据、信息与知识的关系中可见,数据与信息、信息与知识均互为蕴含关系,能够有效开展信息分析。在开展医药相关科研活动中,经常会做一些诸如:数据统计、数据分析、数据挖掘等工作,本质上就是对数据、信息、知识之间关系的探索,均属于信息处理与分析,因此,本书中,没有特别声明时,对信息处理与数据处理、信息分析与知识发现概念不做严格区分。

图1-1 数据、信息与知识的关系图