坚守与变革?遭遇大数据时代的传统出版业
上QQ阅读APP看书,第一时间看更新

第一节 传统出版业数据类型

数据分类方法有很多种,著者尝试从内容数据、发行数据、印刷复制数据、进出口数据、版权数据、出版业元数据和出版业网站数据七方面来对出版业数据进行归纳和介绍。各数据类型的基本描述见表1-1。

表1-1 传统出版业现有数据类型

一 内容数据

出版业是内容产业,因此会产生大量的内容数据,这里主要是指传统纸质图书、期刊、报纸的内容。本书对内容数据规模的计算,是通过对书、刊、报排字量的统计来获得其内容的近似数据量的。

此外,对内容的衡量还有另一种标准,即对内容信息量多少的统计——信息熵。信息熵是一个数学上颇为抽象的概念,在了解信息熵的概念之前,宜先了解一下信息量的概念。一个事件的信息量就是发生这件事的概率的负对数。信息熵则是平均而言,发生一个事件我们得到的信息量的大小。在这里不妨把信息熵理解成某种特定信息的出现概率。信息理论的鼻祖之一克劳德·艾尔伍德·香农(Claude E. Shannon)把信息熵定义为离散随机事件的出现概率,在数学上,信息熵其实就是信息量的期望。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说被引用的频率更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。但对于内容信息量价值的统计不在本书的讨论范围,在此仅做简单介绍。同时,对于内容承载的思想价值目前是无法给出统一、权威的衡量尺度的,亦在此不做讨论。本书涉及的是对内容数据容量的统计,特此说明。

二 发行数据

发行数据指我国出版物发行工作中产生的各种数据,包括全国新华书店系统、出版社自办发行单位的出版物总销售数量、销售金额、零售情况、购进量等统计数据,也包括报刊订阅数据等。

三 印刷复制数据

印刷复制数据指我国传统纸质出版物的印刷复制总体情况数据,包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销的营业收入及其利润总额、印刷用纸量、装订产量等数据。

四 进出口数据

出版物进出口数据指我国累计进出口图书、报纸、期刊、音像制品、电子出版物与数字出版物的数量、金额、增长情况、占比等统计数据。

五 版权数据

本书所说的版权数据是版权管理与版权贸易数据,包括全国版权合同登记数量、引进版权数量(包括图书、音像制品、电子出版物等)、输出版权数量等。

六 出版物元数据

出版物元数据是指使用中国标准书号、刊号、版号等进行标识的出版物的描述性信息,主要包括产品形式、题名、题名的汉语拼音、丛书、著作者、版本、语种、出版标记、出版者、出版国家、出版日期、内容提要、定价、备注等出版物的基础描述性信息。出版物元数据主要用于区分使用中国标准书号、刊号、版号等进行标识的不同出版物,通过元数据的对接可以确定出版物的基本信息。

七 出版业网站数据

出版业自2005年开始陆续进行数字化转型升级,其中包括建立自己的网站等。衡量一个网站受欢迎的程度,通常使用三类指标:用户访问频率、用户访问停留时长和用户访问深度。本书将通过这三个方面的指标来对出版业网站数据进行统计分析。