大数据价值计算研究.pdf_咨信网zixin.com.cn

资源描述

1、Computer Era No.11 20230 引言20 世纪 80 年代，美国未来学家阿尔文托夫勒(Alvin Toffler)在第三次浪潮中第一次使用了“大数据”一词1。从此大数据开启了一次重大的时代转型。大数据是改变市场、组织机构以及政府与公民关系的方法，大数据还是人们获得新的认知、创造新的价值的源泉2。大量的数据在开放多源的渠道中产生，并持续记录物质世界和精神世界运动状态和状态变化的数据空间3。在这个大数据空间中，蕴藏着巨大的科学研究价值、公共管理与服务价值、商业价值以及科学决策价值4-5。这些蕴藏在大数据中的各种“价值”逐渐被人们所认知6。于是大数据的价值是多少？怎么计算大数据

2、的价值的数值？就成了研究的重要课题。目前人们已给出了很多不同的研究方法和方向。按照一种定价模型方法对大数据价值进行研究7-8；按照一种数据资产对大数据价值进行研究2；按一种价值评估方法对大数据价值进行研究9-10。以上这些对大数据价值的研究都是以分析、探究、论述、描述、叙述、解释等为主，而都不是以计算出一个具体的“价值数值”为主。然而计算出“价值数值”是非常有意义的，理由如下：(a)作为大数据交易价格数值的参考；DOI:10.16644/33-1094/tp.2023.11.031大数据价值计算研究马文胜1，侯锡林2(1.辽宁科技大学电子与信息工程学院，辽宁鞍山 114051；2.辽宁科技大

3、学工商管理学院)摘要：研究大数据最核心、最基本的价值数值。首先将大数据“粒化”，建立“粒度树”。然后考虑每个粒及每个粒集合的使用情况，将使用情况分为三种：“正则使用”、“必然使用”、“相关使用”。取它们对于粒及项目的平均值作为大数据的“正则价值”、“必然价值”、“相关价值”的数值。给出大数据最核心、最基本的价值数值的有效计算方法，并给出多个应用实例。关键词：大数据价值；粒度树；使用关系；价值模型中图分类号：TP311文献标识码：A文章编号：1006-8228(2023)11-146-05Research on the value calculation of big dataMa Wenshe

4、ng1,Hou Xilin2（1.School of electtronic and information engineering,Liaoning University of Science and Technology,Anshan,Liaoning 114051,China;2.School of Business Administration,Liaoning University of Science and Technology）Abstract：In this paper,the core and fundamental values of big data are studi

5、ed.Firstly,we granularize the big data andestablish a granularity tree.Then,we consider the usage of each granule and each set of granules,and categorize the usage intothree kinds:regular usage,inevitable usage,and relevant usage.The averages of their values for granules and items are takenas the va

6、lues of regular value,inevitable value and relevant value of big data.The effective calculation method of the coreand fundamental values of big data is given,and several application examples are also given.Key words：big data value;granularity tree;usage relationship;value model收稿日期：2023-07-20作者简介：马文

7、胜（1971-），男，辽宁鞍山人，博士生，主要研究方向：大数据应用。通讯作者：侯锡林（1960-），男，内蒙古锡林格勒人，博士，教授，博士生导师，主要研究方向：大数据应用、企业创新系统。146计算机时代 2023年第11期(b)作为大数据失窃“索赔”的参考；(c)作为大数据更新“删除”的参考；(d)作为大数据行业“标准”、“规范”制定的参考。还有很多领域需要大数据的“价值数值”，因此侯锡林教授认为，对大数据的价值进行科学的评估和计算，创建大数据的价值模型，给出大数据的“价值数值”，无论在理论上还是在实践中，都是亟待解决的最重要问题6。如何给出大数据的“价值数值”呢？人们发现只有使用大数据，大

8、数据才能体现出价值。大数据的价值的多少应体现在大数据使用的多少上。人们还发现，体现大数据“使用”情况的价值才是最核心最基本的价值。各个领域的各种价值都是这个核心基本价值的外在表现。本文将探讨基于“使用”的大数据最核心最基本的“价值数值”计算。本文首先将大数据“粒化”，在大数据中建立“粒度树”。然后考虑每个粒及每个粒集合的使用情况。并将使用情况分为3种：“正则使用”、“必然使用”、“相关使用”。取它们对粒及使用项目的平均值作为大数据的“正则价值”、“必然价值”、“相关价值”的数值。并给出应用实例。1 粒计算与粒度树大数据是巨量数据、海量数据，是无法在一定时间范围内通过人工或计算机进行捕捉、管理和

9、处理的数据集合11。所以大数据的“价值”计算也必须使用非传统的方法。在这些非传统的方法中 Chen 等将“粒计算”列为驾驭大数据的第一方法12。粒计算的基本思想是把初始形式的数据分为不同的粒度进行处理。用粒度合适的“粒”作为处理对象，从而在保证求得满意解的前提下，提高解决问题的效率13。目前大数据粒化的方法有粗糙集的方法14、聚类的方法15、商空间的方法16、模糊信息的方法17和云模型的方法18-19等等。由于这些方法很多都是采用“划分”来形成粒。本文也将利用基于“划分”的粒度树来对大数据粒化。定义1 设G是一个集合,g1,g2,gn是G的非空子集，若g1 g2 gn=G,且gi gj=i j

10、，则称=g1,g2,gn是G的一个“划分”。这时每个gi(1 i n)都称为是G的一个“粒”，称是“粒空间”。记G的所有“划分”为(G)。如果1,2(G)，且对1的每一个粒g，都有2的某一个粒g，使得g g，则称“划分”1比另一“划分”2更细，或者“划分”2比另一“划分”1更粗，记作1 2。例 1G=1,2,3,4,5,6,7,8，1=1,2,3,4,5,6,7,8，2=1,2,3,4,5,6,7,8，3=1,2,3,4,5,6,7,8。都是G的“划分”，而且这里2 1，3 1。但2 3且3 2。定理 1 设G是集合，1,2(G)，1 2，g0 2，则g1,g2,gk 1，使得g1,g2,gk

11、是g0的“划分”。证由定义1知对1的每一个粒g，都有2的某一个粒g，使得g g。若1中所有是g0子集的粒是g1,g2,gk。由于gi g01 i k，所以1 i kgi g0，即或者1 i kgi g0或者1 i kgi=g0。如果1 i kgi g0，则存在d g0但d 1 i kgi。若1中含d的粒是gk+1，由于d g0，而1的每一个粒g，都有2的某一个粒g，使得g g，所以gk+1 g0，这与1中所有是g0子集的粒是g1,g2,gk矛盾，所以1 i kgi g0，所以1 i kgi=g0。由于1中所有粒是1的划分，所以gi gj=1 i,j k i j，所以 g1,g2,gk是g0的划

12、分。定义 2 设大数据D=d1,d2,dN，其中每个di1 i N都是原始文件。它们是对D进行粒划分时的最小单位。一个以D的子集为节点的，满足以下条件的树TD称为D的“粒度树”：TD的根节点是D本身。每一个节点都有一个“名称”，根节点的“名称”是BigData。TD中若z1,zn是z的所有子节点，则 z1,zn是z的一个划分。粒度树TD中的一个节点集C，若满足TD的每一个叶子节点z到根节点的路上，都存在且只存在唯一的节点v属于C，则称C是TD的一个“视角”。例2 设D=File1,File2,File3,File4,File5,File6,File7,File8。为了书写方便，以

13、下只写下标:D=1,2,3,4,5,6,7,8。图1是以D的子集为节点的树，满足以下条件：根节点是D本身。147Computer Era No.11 2023 每个节点都有“名称”，根节点的“名称”是BigData，其他节点名称是A，B，C，D，E，F，G，H，I。图1大数据的粒度树满足节点z的所有子节点是z的一个划分。例如：A有三个子节点C,D,E，于是C,D,E =1,2,3,4 是A=1,2,3,4 的划分。C,H,I,E,B 是视角。C,A,F,G 不是视角，因为在从叶节点C到根节点BigDate的路上，存在两个节点A和C。显然这个粒度树共有7个视角：C0=BigData

14、，C1=A,B，C2=A,F,G，C3=C,D,E,B，C4=C,D,E,F,G，C5=C,H,I,E,B，C6=C,H,I.E,F,G。它们决定的粒空间分别是：0=BigData=1,2,3,4,5,6,7,8,1=A,B =1,2,3,4,5,6,7,8,2=A,F,G =1,2,3,4,5,6,7,8,3=C,D,E,B =1,2,3,4,5,6,7,8，4=C,D,E,F,G=1,2,3,4,5,6 7,8,5=C,H,I,E,B=1,2,3,4,5,6,7,8,6=C,H,I,E,F,G=1,2,3,4,5,6 7,8定理2 设TD是大数据D的“粒度树”，C是TD的一个视角，则C是D

15、的一个“划分”。并称其为C决定的“粒空间”，或“粒层次”。证显然TD可以这样来形成：令T(0)D=D，而对i=0,1,2,，把T(i)D的某一个叶子节点细化，得到T(i+1)D，最后直到某次T(m)D=TD为止。首先对TD的形成过程T(0)D,T(i)D,T(i+1)D,T(m)D进行归纳，证明：若z1,zp是TD的所有叶子节点，则z1 zp=D。（基础）对于T(0)D，因T(0)D=D，所以结论正确。（归纳）若T(i)D叶子节点为w1,w2,wk，且w1 wk=D，那么w1细化为w11,w1t后，因 w11,w1t是w1的划分，所以w11 w1t=w1，所以T(i+1)D的

16、叶子节点满足w11 w1t w2 wk=w1 w2 wk=D。其次若视角 C是 v1,v2,vk，而TD的所有叶子节点z1,zp中是vi的子节点的是zi1,ziq，则vi=zi1 ziq。由于从每一个叶节点z到根节点BigData的路上，都存在唯一的节点v属于C，所以i j时vi vj=。另外因为只存在唯一的节点v属于C，所以v1 vk=z1 zp。而前证z1 zp=D，所以v1 vk=D，所以C是D的一个划分。2 使用关系与核心基本价值如前所述，大数据D没有使用，就没有价值。使用越多，价值越大。在D中建立粒度树TD，对TD中的每一个视角C决定的粒空间=g1,g2,gn，都可给出使用关

17、系I。我们将利用这些使用关系I来描述大数据的使用情况。定义3 设D是大数据。=g1,g2,gn是D的一个粒空间。U=u1,u2,um是使用大数据的项目的集合。I U (这里是笛卡尔积)是U与间的关系，当且仅当ui使用了gj中的内容时 I。称I为大数据D对应的“使用关系”，简称“关系”。若1 2，则对每个g0 2，都存在g1,g2,gk 1，使得 g1,g2,gk是g0的划分(定理1)。这时I1,I2应满足：I2 I1 I1 I1例3(继续例2)设项目为U=u1,u2,u3,u4,u5,u6,u7。U与1,2,3,4,5,6间的使用关系I1,I2,I3,I4,I5,I6如表1所示（当且仅当 I时

18、，I的表中u行m列为）。I1u1u2u3u4u5u6u7ABI2u1u2u3u4u5u6u7AFGI5u1u2u3u4u5u6u7CHIEBI6u1u2u3u4u5u6u7CHIEFGI3u1u2u3u4u5u6u7CDEBI4u1u2u3u4u5u6u7CDEFG表1 大数据对应粒度1,2,3,4,5,6的使用关系I1,I2,I3,I4,I5,I6148计算机时代 2023年第11期定义4 设大数据D对应粒空间及项目U的使用关系为I。若u U,则规定函数(u)为：(u)=g|I，并规定()=。考察粒空间的任一个子集G 的使用情况。设u U是一个项目，则可能有三种情况：u使用了G中的每一个粒

19、，即(u)G，这时称u为G的正则项目。u使用了G中的一部分粒，而且没有使用G以外的粒，即(u)G，则称u为G的必然项目。u使用了G中的一部分粒，而且还使用了G以外的粒，即(u)G ，则称u为G的相关项目。定义 5 记G的所有正则项目的集合为N(G)，即N(G)=u U|(u)G。记G的所有必然项目的集合为C(G)，即C(G)=u U|(u)G。记G的所有相关项目的集合为R(G)，即R(G)=uU|(u)G。于是正则项目的总和为G G|N(G)|，必然项目的总和为G G|C(G)|，相关项目的总和为G G|R(G)|(这里|S|表示集合S的元素个数)。正则项目的总数为G G|N(G)|，的不为的

20、子集G共2|-1个，所以正则项目的总数对粒的平均值为G G|N(G)|(2|-1)-1。此值再对项目个数平均，所得结果是1|U|G G|N(G)|(2|-1)-1。圆整到0 100之间，1|U|G G|N(G)|(2|-1)-1 100，就称为是大数据的“正则价值数值”。同理定义“必然价值数值”与“相关价值数值”。于是我们有以下定义：定义6 设D是大数据，是D的一个粒空间。U是使用大数据的一些项目的集合，I U 为D对应的“使用关系”，则大数据的正则价值数值为：valueN(D,)=1|U|G G|N(G)|(2|-1)-1 100必然价值数值为：valueC(D,)=1|U|G G|C(G)

21、|(2|-1)-1 100相关价值数值为：valueR(D,)=1|U|G G|R(G)|(2|-1)-1 1003 实际应用例4 一个远程医疗的大数据D的粒度树(只给出节点名称)如图2所示。令3=原始信息,体液,住院,外部影像,内部影像,其他,生活信息，是粒度树的“视角”。我们用3（着重诊断的视角）来计算“价值数值”。3的使用关系I3如表 2 所示，其中a是原始信息，b是体液，c是住院，d是外部影像，e是内部影像，f是其他，s是生活信息。选择九个使用项目：u1是医疗单位，u2是医疗设备生产企业，u3是养老院，u4是药品研究院，u5是药品销售单位，u6是食品生产部门，u7是服装生产部门，u8是

22、保险公司，u9是陪护/家政服务公图2远程医疗的大数据D的粒度树149Computer Era No.11 2023司。计算得出：valueN(D,3)=28.5880,valueC(D,3)=30.6513,valueR(D,3)=93.7883表2粒空间3的使用关系I3u1u2u3u4u5u6u7u8u9abcdefs4 结束语大数据蕴藏着巨大的价值。为满足大数据交易“定价”的需求、失窃“索赔”的需求、删除“取舍”的需求、制订“规范”的需求，人们不仅需要对价值进行论述、描述、叙述、解释、分析、探究，而且需要用一个“价值数值”来表示它的大小。人们认识到大数据的“价值数值”并不是“信息量”，它与

23、概率无关，与使用有关。人们还认识到各种各样的价值都是使用决定的“价值”的外在表现。使用决定的“价值”是最基本最核心的价值。而且实践表明使用可以有“正则使用”、“必然使用”、“相关使用”。对应了“正则价值”、“必然价值”、“相关价值”，三种价值。“正则价值”是经常应用的价值。“必然价值”是强调粒的各集合独立使用时的价值。“相关价值”是强调粒的各集合联合使用时的价值。三种价值相辅相成，配合使用，形成了较全面的“价值数值”谱系。本文探讨了基于使用的大数据价值计算以及多个实际应用。做引玉之砖，供大家参考。参考文献(References):1 Toffler A.The Third Wave M.New

24、 York:Bantam Books,1981:167-168.2 MayerSV,Cukier K.Big Data:A Revolution That WillTransform How We Live,Work,and Think M.NewYork:Houghton Mifflin Harcourt,2013,47.3 Borgatti S P,Mehra A,Brass D J,et al.Network analysis inthe social sciencesJ.Science,2009,323(5916):892-895.4PorterME.Competitiveadvant

25、age:creatingandsustaining superior performance M.New York:FreePress,1985:2-4.5 徐宗本,冯芷艳,郭迅华,等.大数据驱动的管理与决策前沿课题J.管理世界,2014(11):158-163.6 侯锡林,沈健健.接力创新中大数据价值模型的构建与分析J.辽宁科技大学学报,2019,42(2):149-153,160.7 Fama E F,French KR.The Value Premium and theCAPM J.The Journal of Finance,2006,61(5):2163-2185.8 陈志注,王宏志

26、,熊风,等.大数据拍卖的定价策略与方法J.中国科学技术大学学报,2018,48(6):486-494.9 Jorge M,Ismael C,Bibiano R,et al.A data quality in usemodelforbigdataJ.FutureGenerationComputerSystems,2016,63:123-130.10 Niyato D,Alsheikh M A,Wang P,et al.Market model andoptimal pricing scheme of big data and internet ofthings(IoT)C/IEEEInterna

27、tionalConferenceonCommunications(ICC).IEEE,2016.11 Vance A.Start-up goes after big data with HadoophelperDB/OL.http:/ Chen C LP,Zhang C Y Data-intensiveapplications,challenges,techniques and technologies:asurveyonbigda-taJInformation Sciences,2014,275:314-347.13 徐计,王国胤,于洪.基于粒计算的大数据处理J.计算机学报,2015,38(

28、8):1497-1517.14YaoYY.InformationgranulationandroughsetapproximationJ.InternationalJournalofIntelligentSystems,2001,16(1):87-104.15 钱宇华.复杂数据的粒化机理和数据建模D.太原:山西大学计算机与信息技术学院,2011.16 张燕平,张铃,吴涛.不同粒度世界的描述法商空间法J.计算机学报,2004,27(3):328-333.17 Zadeh L A Toward a theory of fuzzy informationgranulation and its centrality in human reasoning andfuzzy logicJFuzzy Sets and Systems,1997,90:111-127.18 马鸿耀,王国胤,张清华,等.基于云模型的多粒度彩色图像分割J.计算机工程,2012,38(20):184-187.19 王国胤,李德毅,姚一豫,等.云模型与粒计算M.北京:科学出版社,2012.CE150

展开阅读全文