不再为吃而忧愁武汉环亚白癜风医院专家送来夏季饮食秘籍_医学聚焦_

丁长松+瞿昊宇+吴世雯

摘要：针对传统数据办理方法难以有用办理中医药信息的问题，本文从中医药信息资源实质特性视点剖析并概括其原因在于中医药信息资源具有大数据的4V特征，提出了依据大数据技能办理中医药信息资源的战略，并对其可行性进行了论述。

关键词：中医药信息；大数据；数据办理

DOI：10.3969/j.issn.1005-5304.2016.09.003

中图分类号：R2-05 文献标识码：A 文章编号：1005-5304（2016）09-0010-05

TCM Data Management based on Object Characteristics under the Background of Big Data DING Chang-song， QU Hao-yu， WU Shi-wen （School of Management and Information Engineering， Hunan University of Chinese Medicine， Changsha 410208， China）

Abstract： Targeting the problem that it is difficult for traditional data management mode to effectively manage TCM information， this article analyzed from the aspect of object characteristics of TCM information resources and summarized that the reason lies in the TCM information resources with big data 4V features， proposed strategies for TCM information resource management based on big data technology， and expounded the feasibility.

Key words： TCM information； big data； data management

中医药信息作为中医药技能的首要载体，对其进行高效办理与运用，对促进中医药工作的展开起着关键作用。但是，中医药技能和信息技能展开不同步、传统中医学长时刻短少规范、短少一致的术语界说规范，以及海量中医药数据且日积月累，使传统的数据办理方法难以对其进行有用办理与运用。因此，剖析中医药信息实质特征并提出相应的办理战略，已成为有用运用中医药信息资源亟需处理的中心问题。为此，笔者结合中医药信息特征，对传统的中医药信息技能手法、效果及限制性进行剖析和总结，提出大数据布景下的中医药数据办理处理方案，并从中医药信息的个性特征视点剖析证明凭借大数据技能对其进行有用办理的可行性。

1 中医药信息特征剖析

中医药是中华民族展开进程中对人本身和天然知道了解进程的效果，具有显着的天然特点和社会属

基金项目：国家天然科学基金（81573985）；湖南省科技厅项目（2011RS4025、2013GK3143）；湖南省教育厅优秀青年基金（13B079）

性。其间，天然特点体现在中药与中医常识的客观存在特性，社会特点源于人类活动对中医药天然特点的影响，如药物加工、药种的人工干预、信息的再生产等方面。中医药信息是知道论层次的信息，具有显着的主客观交融特征，相对注重体系时刻上的连续改变状况，是敞开环境下获取的包含实质的现象信息[1]。从数据办理视点而言，中医药信息具有以下特性。

1.1 描绘目标特点含糊、笼统

中医学理论体系受阴阳五行学说的影响以整体观念为主导，依据体系和经历而短少客观量化依据，判别规范含糊，导致特点描绘含糊和笼统。一般对药物的描绘多选用比如“温”“辛”等词，对其用法多选用“常”“适宜”等笼统词，如对细辛的描绘为“本品辛温发散……善于解表散寒……适宜外感风寒，头身痛苦较甚者，常与羌活、防风、白芷等祛风止痛药同用……”。又如脉象信息作为中医获取四诊信息的手法之一，其搜集仅靠医生指腹的感觉，对其描绘选用形象化的词语，如滑脉“替替然如珠之应指”、浮脉“举之有余，按之缺乏”。

1.2 搜集目标特点不齐备，古籍校本纷歧

中医古籍文献著作者在对中医药的特点描绘进程中多带有主观因素，且受限于其年代的认知水平，导致搜集的目标特点存在片面性和限制性。一起，因为古医籍文献数字化工作量巨大，导致现有的中药数据库大多仅供给题录式或文摘式数据而全文数据库少，运用户难以获取全面详细的信息。

中医药古籍中一些比较重要的医籍，因为屡次再版，导致同一古籍存在多种校本，并且在古籍传承进程中选用的金石、书籍、帛书、抄本和印本等载体易导致犯错，使现存的中医药文献中目标特点不齐备乃至存在过错。

1.3 名词术语不规范，目标特点描绘多样

中医药名词术语不规范，一词多义、同义多词的现象非常遍及。如针灸学中任脉“关元”穴有多种别号，气功学中称“丹田”，《素文·气穴论篇》称“下纪”，《灵枢·寒热病》称“三结交”，《针灸甲乙经》称“次门”，《针灸资生经》称“大中极”。又如中药“金银花”，《植物名实图考》称“鹭鸶花”或“忍冬花”，在处方中有二宝花、二花、金花、银花等别号，按产地差异又有苏花（江苏）、济银花（山东费县）、密银花（河南密县）、杜银花（甘肃）等称号。别的，中医丹方学也存在着不规范的中药编造名，以及剂量单位纷歧致、同方异名等问题，如大略核算发现《中华名医丹方大全》9031首丹方异名达1004个[2]。

目标特点描绘多样首要是因为中医药本身杂乱多样特征所决议。如对药材的描绘中，产地多选用文字描绘，用量选用数字描绘，而形状特征则选用图文结合进行描绘。

1.4 中医药文献或数据库之间联络杂乱

以中医药数据为内容构建的数据库之间联络杂乱。同一药物常出现在不同数据库中，丹方中的药与药典中的药之间联络、不同医生对相同病症用药之间的内涵联络、同一医生对不同病症开具的处方之间的用药联络等，因为传统的中医药数据信息未同享，各自为“信息孤岛”，导致在剖析目标间联络，尤其是当剖析的数据海量时，选用传统联络数据库难以完成。

1.5 数据海量且添加快速

中医药在其展开进程中发生了海量数据，如我国中医科学院中医药数据中心数据存储容量现在已达PB级[3]。跟着现代信息技能在中医药范畴中的广泛运用，使中医药信息快速添加，尤其在临床确诊、医治、检测方面发生的临床数据，以及在现代试验研讨方面发生的相关数据方面更为杰出，如中药现代研讨文献数据库，其数量约占现有中医药文献数据库总量的3/4[4]。

2 中医药信息办理现状与困惑

现在，中医药信息办理首要会集在根底数据库、数字化图书馆建造、相关规范（规范）收拾、文献信息检索和电子政务体系建造等方面，尤其在数字化方面取得了明显效果。如“国家中医古籍收拾与数字化研讨中心”累计已完结1690种中医古籍的图画扫描，完成了部分古籍资源图文对照和全文检索功用，建造了800种中医古籍的印象数据库和全文数据，并构成了处理中医古籍数据化问题的“依据常识元的中医古籍核算机常识表明办法”，拟定了《中医古籍数字化文本校勘收拾规范》等系列辅导古籍数字化建造的技能规范及系列古籍常识标引手册等[5]，为中医古籍大规划数字化、数据化建造，以及面向临床的常识效劳供给了技能保证，处理了中医古籍数字化及数据化的技能难题。

在数据库建造方面，我国中医科学院中医药信息研讨所自1984年开端进行中医药学大型数据库的建造，现在数据库总数40余个、数据总量约110万条，包含中医药期刊文献数据库、各类中药数据库、民族医药数据库等相关数据库，并在建造数据库的进程中拟定了中医药元数据规范、中医药一体化言语体系等相关规范。以我国中医科学院为中心树立的中医科技文献共建渠道，创立了中医、中药、针灸、古籍文献类数据库100余个，一起为了充分运用这些科学数据资源还树立了数据发掘办法的整合渠道与高功用运算的技能渠道[5]。

在归纳体系和渠道建造方面，国家启动了旨在集成现有中医药科技数据库群的“我国中医药科学数据网格效劳运用”项目，该项目现已构建了面向中医范畴的运用网格结构，并在开发面向中医药范畴的特定网格运用软件[6]。科技部启动了“医药卫生科学数据同享网”项目，该项目旨在树立一个物理上散布、逻辑上高度一致的医药卫生科学数据办理与同享效劳体系，以供给数据同享和信息效劳[7]。我国中医科学院中医药信息研讨所针对单一实体安排遭到本身展开规划、人员及设备等方面的约束，牵头提出了“中医药信息数字化虚拟研讨院”[8]的理念。

凭借现代信息技能对中医信息资源的归纳运用、发掘也进行了一些测验。如湖南中医药大学从20世纪70年代的“中医辨证论治电脑体系”到21世纪初的“WF-Ⅲ中医（辅佐）治疗体系”，体系内编制有病症1000种，规范证候方法1800个，演绎证候方法5000余个，疾病病种 460种，辨证要素54项，常见证200个，常用丹方670首（验方在外），常用中药720种（含中成药），能为中医内、妇、儿科全病域治疗[9]。我国中医科学院从2001年开端着手树立中医临床科研信息同享的技能体系，用以处理将临床实践治疗信息实时数据化及对杂乱海量临床数据的剖析运用的问题，现在已树立了多个运用体系，其间中医临床数据仓库中现已存储超越10余万份的数据化病历[5]。

当然，中医药信息化建造相对于现代医学或其他科学起步较晚，信息化水平远落后于用户对其实践运用的需求。如现存的中药数据库中大部分数据库仅供给题录式或文摘式数据，难以满意用户期望取得全面且详细内容的实践需求。另一方面，已有的中医药信息化建造首要会集在中医药信息数据资源的搜集、收拾，归纳运用或从数据效劳的功用及质量方面考虑较少。因此，跟着所搜集数据量的添加和用户对其效劳质量要求的进步，现有的中医药信息化水平将愈加难以满意用户对其运用的客观需求。

支撑海量中医药数据的办理体系应具有高可扩展性以满意数据量的快速添加、高功用以满意对数据的高功用查询、杰出的容错性以及有用处理目标多样性问题的办法，但现在中医药数据办理首要选用的联络型数据模型无法处理这些问题，首要体现在以下几方面。

榜首，联络型数据库内存中的数据结构与联络模型之间存在“阻抗失谐”，需将不同数据之间的联络进行转化，尽管选用“方法匹配”能处理“阻抗失谐”，但降低了体系查询功用，因此无法处理中医药信息中目标特点项的不断定性问题。

第二，联络型数据库尽管选用切割、非规范化、散布式缓存等技能能增强其存储和办理才能，但无法处理比如中医药数据规划巨大、数据类型多样的问题，并且一些半结构化数据强行运用联络模型建模后在体系功用和扩展才能上没有好的体现。

第三，在进步对数据的存储与并行处理才能、保证强一致性及容错性方面，联络型数据库尽管展开了并行处理体系、选用NRW战略、两阶段提交协议、散布式锁等许多技能，但依据CAP理论[10-11]，一致性、可用性、分区耐受性在散布式体系中三者不行兼得，因此并行数据库无法取得杰出的扩展性，这导致了扩展性受限的联络型数据库无法对中医药大数据进行深度剖析[12]。

第四，中医药数据海量且添加快速，需求与之相匹配的具有杰出横向扩展才能的数据库，但传统联络型数据库对功用的扩展倾向于纵向扩展，该方法对功用的添加速度远低于需处理数据的添加速度，且功用进步有限；传统联络型数据库处理多个数据源协同查询操作时其功率低，而中医药信息中各数据目标间存在的联络尤为杂乱，使联络模型数据库在面向海量、多数据源进行读写或查询操作时难以满意用户对功用的要求。

总归，传统的联络型数据库难以有用办理中医药数据，是因为中医药数据本身的固有特性和传统的联络型数据库本身限制所造成的。因此要从实质上处理中医药数据的办理问题，需打破传统的数据办理方法，凭借现代信息的展开效果尤其是数据办理方面的新技能，从中医药信息本身的特征动身，对其进行高效办理和运用。

3 中医药信息办理新趋势

3.1 大数据技能

大数据最典型的特征为“数据量大（volume）”、“数据添加高速（velocity）”“数据类型多样（variety）”和“数据价值密度低（value）”，即4V特征，该特征运用惯例软件东西难以对其进行获取、办理和剖析。

作为一种新的核算方法，云核算源于并行核算、散布式核算和网格核算，首要依托散布式处理、云存储、散布式数据库及虚拟化技能，完成“根底设备及效劳”“渠道及效劳”和“软件及效劳”功用。大数据存储、办理及数据剖析往往凭借云核算技能，最为典型的运用为云核算体系结构底层文件体系用于办理大数据文件及运用散布核算结构如MapReduce、Spark进行数据处理和剖析。MapReduce作为Google提出的散布式核算结构，供给了一种简略的编程模型，让用户经过设定Map功用，将一组Key/value对转化为一组中心Key/value对。Reduce功用将具有相同中心Key值的中心Value值进行整合，然后得到核算成果。MapReduce中的一个作业就是一组Map和Reduce函数，它们被提交给调度体系，然后被调度到可用的机器上去。为战胜MapReduce的机器学习算法功用低下、不能很好地运用内存资源、编程杂乱度较高级缺乏，Matei Zaharia主导开发了新式核算结构Spark。不同于MapReduce，Spark的Job中心输出成果能够保存在内存中，然后不再需求读写HDFS，因此，Spark能更好地适用于数据发掘与机器学习等需求迭代的MapReduce算法。

现在许多大型IT企业为处理本身所从事范畴的数据办理，展开了相关研讨并提出一些可行的处理方案或效劳，其间典型的成功实例有：为处理海量数据环境中面向全球用户供给实时的搜索引擎效劳，Google提出了文件体系GFS、散布式核算编程模型MapReduce结构、散布式锁Chubby、散布式存储体系Megastore、散布式结构化数据表Bigtable及散布式监控体系Dapper等技能。Apache开源安排提出了一个开源的散布式核算结构Hadoop，其中心技能HDFS、MapReduce和Hbase别离对应Google的GFS、MapReduce、Bigtable的开源完成。Amazon提出了Dynamo渠道根底存储架构以及弹性核算云EC2、简略存储效劳S3、简略数据库效劳Simple DB、简略行列效劳SQS、弹性MapReduce效劳等系列效劳，其间Dynamo作为Amazon的电子商务渠道根底彻底散布式、去中心化，已被Twitter和Facebook作为存储架构。别的，微软推出了AZURE，IBM推出了蓝云效劳。

上述大数据较遍及选用了以下技能：①对数据库不事前界说结构（schemaless）以处理“阻抗失谐”问题，即先有数据再断定方法，不需事前修正结构界说然后能够自在添加字段；②选用弱一致性模型或终究一致性模型以习惯集群处理大数据；③经过并行核算模型完成在可弹性的大规划集群上履行并行操作，以从体系层面处理扩展性及容错性问题。

3.2 依据大数据技能的中医药信息办理办法

中医药数据难以办理和运用，能够归结为目标特点杂乱、数据海量及目标间联络杂乱，这些问题实质上归于大数据的4V特征，现在业界已有老练且实践中得到广泛验证的处理方案，因此能够学习大数据技能处理中医药信息的办理问题。

3.2.1 目标特点多样中医药数据中操作目标的特点描绘多样，即其数据类型存在着不断定性，传统联络型数据库需事前预订数据结构，导致无法存储类型纷歧致的数据，而大数据技能一般选用“无方法”数据库，可处理大数据特征的“数据类型多样（variety）”问题。如Dynamo存储架构对数据以位（bit）的方法存储、不解析数据的详细内容，对数据结构不进行辨认，然后能够处理不同的数据类型。

中医药信息存在很多非结构化、半结构化的数据，如古医籍、药典、处方等，现在已有许多老练的数据库能够存储非结构化、半结构化的数据，最为典型的为键值数据库Riak、文档数据库、列族数据库Hbase。这些数据库经过聚合构建，每个聚合都有一个键或ID以获取数据。其间，键值数据库能够依据键值查出整个聚合，而文档数据库的聚合是通明的，因此文档数据库可用聚合中的字段查询。列族数据库与传统数据库以行为单元存储来满意需求常常写入操作的场景最大不同之处在于，其将一切行的某一组列作为根本数据单元进行存储以习惯常常需求一次读取若干行中多列的状况。这些数据存储模型能较好地处理中医药信息中杂乱的数据存储目标，如处方能够用患者的ID作为键值选用键值数据库进行存储，便于查询以该ID存储的聚合内容；而药典中对药的描绘安排结构大体相同，因此可选用文档数据，便于经过其间的字段进行查询以进步查询功率。

3.2.2 数据海量、添加敏捷中医药数据中操作目标的特点含糊、不齐备、古籍校本紊乱，为获取全面、精确的信息，需归纳多个数据源进行归纳剖析，即从很多数据价值相对低的中医药信息中进行抽取。该问题可归结为“数据量大（volume）”和“数据价值密度低（value）”的大数据特征。

处理中医药数据的海量性需具有可扩展性的散布式文件体系，并且文件的规划不同，则需采纳的战略不同。在处理大文件方面，Google的散布式文件体系GFS可构建在很多廉价效劳器之上，首要适用于读操作远大于写操作的运用场景且具有可扩展性，如中医药文献古籍存储后首要进行读操作一般不需进行再写，因此可选用GFS文件体系。在存储海量小文件如图片存储场景时，Haystack文件体系经过多个逻辑文件同享同一个物理文件、添加缓存层、加载部分元数据到内存等方法，处理GFS在处理海量小文件因为频频读取元数据导致功率低的问题。

3.2.3 各数据目标间杂乱联络中医药文献记载或中医药数据库中存储的目标之间杂乱联络实践上是客观存在的联络，图作为表明事物之间联络的有用手法，能够表明这种杂乱联络。需求记载或存储的目标即实体，目标间联络即为边，实体和边都有各自的特点。联络型数据库中存储的图结构一般选用单一联络类型，如在添加一条联络往往需修正多个方法并搬运大批数据，因此不适用于中医药数据剖析的场景。图数据库与联络型数据库存储图结构不同之处在于实体间的联络在创立时被耐久化，因此对其进行遍历的功率高。在大数据图处理方面，Google提出了首要用于图核算的Pregel模型，其中心思维源于BSP核算模型；微软提出了Dryad数据处理模型，首要用来构建支撑有向无环图类型数据的并行程序。Pregel模型和Dryad模型相结合，能较好地剖析中医药信息中目标间存在的相互联络。

4 结语

怎么有用办理和运用中医药信息资源是充分运用中医药技能效劳社会的中心问题。本文在剖析中医药信息资源的展开进程和其实质特征的根底上，论述了中医药信息资源具有大数据4V特征，从理论上剖析了大数据技能处理中医药信息资源办理的可行性。往后研讨将首要会集在详细存储目标的存储模型选取及其完成方面，以期终究完成一个有用办理中医药信息资源的归纳云渠道。

参考文献：

[1] 于琦，崔蒙.中医药信息的特征研讨[J].我国中医根底医学杂志， 2012，18（10）：1137-1139.

[2] 丁志平，王家辉，乔延江.中药信息学研讨浅释[J].我国中医药信息杂志，2003，10（4）：92-94.

[3] 罗朝淑.我首个国家级中医药数据中心建立[N].科技日报， 2015-01-08（10）.

[4] 李湘君.中医药信息资源现状剖析[J].卫生软科学，2007，21（3）：227-228.

[5] 刘保延.大数据制作今世中医航海图[N].我国中医药报， 2013-06-05（3）.

[6] 尹爱宁，崔蒙，范为宇，等.中医药虚拟研讨院[J].世界中医中药杂志， 2006，28（3）：141-143.

[7] 赵红，尹岭，王建国，等.国家医药卫生范畴科学数据同享网建造意图与现状[J].我国中医药现代远程教育，2008，6（6）：570-572.

[8] 崔蒙，谢琪，尹爱宁，等.中医药信息数字化虚拟研讨院建造方法研讨[J].上海中医药大学学报，2008，23（3）：5-8.

[9] 朱文锋.WF文锋-Ⅲ中医（辅佐）治疗体系[J].医学研讨杂志，2007， 36（9）：62.

[10] ERIC A BREWER. Towards robust distributed systems[EB/OL]. （2000-07-19）[2016-04-19].http：//people.eecs.berkeley.edu/～brewer/cs262b-2004/PODC-keynote.pdf.

[11] LYNCH N， GILBERT S. Brewer's conjecture and the feasibility of consistent， available， partition-tolerant Web services[J]. ACM SIGACT News，2002，33（2）：51-59.

[12] 覃雄派，王会举，杜小勇，等.大数据剖析——RDBMS与MapReduce的竞赛与共生[J].软件学报，2012，23（1）：32-45