NoSQL的PDM图文档存储

【导读】
基于NoSQL的PDM图文档存储 PDM图文档存储系统设计的总体目标是基于用户、文件数量快速增长过程构建可靠、低成本及易实施的逻辑集中、物理分散的企业私有云存储平台,存储平台能够

   PDM图文档存储系统设计的总体目标是基于用户、文件数量快速增长过程构建可靠、低成本及易实施的逻辑集中、物理分散的企业私有云存储平台,存储平台能够结合多种存储系统对不同类型的非结构化数据进行存储,满足图文档海量存储需求。

 

    近年来,出现了以NoSQL为底层的云存储系统,它既满足高并发读写性能需求,又适用于服务器弹性扩展的需求。考虑到部分图文档文件较大,而HDFS(Hadoop Distributed File System)能够支持海量数据存储,且易扩展,适合那些有着超大数据集的应用程序,可以很好地支持百MB及GB级的大文件。本章重点研究PDM图文档的存储策略,选择将NoSQL数据库加入以HDFS为基础的企业私有云存储平台中,组建存储资源网。
 
1基于企业私有云的PDM简介
    传统的PDM系统是以RDB为基础的单点存储系统或分布式存储系统。而PDM私有存储云平台则是在企业内部(设计制造一体化企业)或有限几个企业(设计、制造相对独立的企业群)中的一个包含多存储设备、多应用、多服务协同工作的集合体,并采用NoSQL数据库作为其底层数据支撑环境。结构如图3.1所示。

图3.1.jpg

 
    图3.1中,访问层提供系统和客户端及其它系统的交互窗口,用于数据资源的整合以及对系统的管理维护。应用接口层实现业务的处理逻辑,并封装有数据库操作模块,用于企业实际业务应用程序的开发。存储管理层采用集群、分布式文件系统和网格计算等技术,实现基础设备层中多个存储设备协同合作。

基础设备层包含企业服务器、网络设备、中间件等各类硬件资源,用于上层应用程序数据的存储。其中,存储管理层是PDM私有云存储的核心,也是云存储中最难以实现的部分,面对PDM中大量类型多样的文本文件、图片、视频等非结构化数据,研究者致力于寻求一种可靠的、低成本的和易实施的存储解决方案。
 
    采用数据库的方法来实现非结构化数据的存储己有先例。采用RDB作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理。文件数据分块存入RDB,并对存储过程和执行SQL语句直接存储两种方法进行效率分析得出最佳分块大小。

    然而,由于RDB扩展困难,在数据增多的情况下并不能提供高性能服务。脱离关系数据库存储思想,采用非关系数据库存储非结构化数据,为云存储提供了一种思路。其中,云存储的核心是应用软件与存储设备相结合,以实现存储设备向存储服务的转变,用户通过云存储便能使用整个云存储系统提供的数据访问服务。而单一的存储系统并不能提供高效的管理和访问能力。根据存储系统执行操作的响应时间将非结构化数据自适应的存储至相应的存储子系统中。

 



 
2企业私有云平台设计需求分析
    传统的PDM图文档数据存储系统存在数据中心与异构终端间的数据共享程度不强、高并发读写能力欠缺、自由扩展困难等问题。针对PDM图文档的海量存储需求,深入分析图文档存储平台的总体要求,将有助于开发出高共享、高并发及易扩展的企业私有云存储平台。平台设计要求分析如下:
 
    (1)高并发性
    在产品整个生命周期中包括需求、分析、设计、工艺、工装、制造、实施及维护等环节会产生大量的文档、视频等多种类型的非结构化信息,这些数据来自于多个不同的数据生产部门,如设计规范、标准、技术参数文件等来自设计部门,工艺数据、工艺规程等来自工艺部门,使用手册、维修卡、备件单等来自销售维护部门。其中,部分图文档数据的生成和处理需要多个部门间协同合作,在产品整个生命周期中是动态变化的,如三维模型、产品结构分析报告、限元分析报告、热处理数据、测试报告工艺卡、工序卡、工步文件、刀位文件、装配文件和测试报告、NC代码文件、设备状态信息等文档。因此,图文档的存储需满足多部门交互共享,这就需要存储平台能够在多用户高并发的环境下工作。
 
    (2)扩展性
    随着企业的发展,PDM系统中的图文档会逐渐呈现出海量的特点,这对整个系统的存储容量提出了很高的要求,当系统的存储空间耗尽时应可以非常方便的扩充容量,需能够保证存储容量不成为系统的瓶颈,以适应PDM系统中图文档数据的快速增长。
 
    (3)高效性
    图文档格式多种多样,单个文件的大小小则几百字节,大则几个G字节。若采用文件方式保存则不利于共享利用,而且数据的可靠性不容易保持。若果以文件分块的形式利用关系数据库保存则存在严重的空间资源浪费的情况,因为文件的所有分块占在关系数据库表中都需要用同样大小的空间。因此,需要针对图文档数据的特点选择合适的存储方式进行优化设计。
 
    (4)可靠性
    存储平台要提供可靠的数据存储服务,保证资源数据的存储、获取等方面的可靠性,能够发现和恢复系统中机器出现的故障,保证数据的安全及系统稳定的运行。

 



 
3图文档存储平台设计
    PDM系统中图文档的存储是对图文档数据和图文档元数据的存储。前者是指以文本、图像、音频、视频等多种格式存在的非结构化数据;后者是指对该图文档数据的描述,如文件名、文件长度、类型、创建日期、版本、所有者等。
 
3.1数据分布模型
    基于企业私有云的 PDM系统结构的基础上,选择采用NoSQL数据库和HDFS作为图文档的存储平台,借鉴分布式系统的存储模型,将图文档的元数据和图文档数据分离,所有文件的元数据信息均保存至NoSQL数据库中进行管理,图文档数据则分布存储至以NoSQL和HDFS为支撑的企业私有云存储中。图文档数据分布模型如图3.2所示。

图3.2.jpg

 
    该模型充分考虑了图文档的存储需求和现有技术的结合。图文档类型多样,而且数据大小极不规律,小则几百字节,大则几个G字节,因此存储平台不仅需满足高效存储和低成本存储,还需满足小文件的快速响应及大文件的高吞吐量存取。对于文件数据,NoSQL和HDFS均是将数据划分成统一的块进行存储,NoSQL的分块大小一般在几个M字节以下,支持高并发读写及海量存储,但当文件太大时,数据所对应的元数据的数据量就会增多,造成存储空间的极大浪费。
 
    而HDFS默认的数据块的分块大小是64M ,可以很好地支持百MB及GB级的大文件,但由于它是以一定延时为代价来满足高数据量吞吐而设计的,因此并不适用于低延迟访问,且由于HDFS在对文件数据存储管理时,需将文件系统的元数据放置在内存中,所能容纳的文件数目由HDFS的内存大小决定,当小文件过多时,将占用大量元数据,降低了系统的存取能力和存取效率。
 
3.2图文档元数据存储模块
    本章使用基于NoSQL技术的文档型数据库MongoDB来存储海量的图文档元数据具有以下优势。MongoDB具有高并发、高效访问、查询检索方案丰富等优点,同时具有灵活自由的数据结构设计模式,能够很好的满足图文档元数据信息的存储需求;它内部提供的自动分片机制对于客户来讲是透明的,用户并不需要知道数据的具体位置就能实现数据的查询操作;与传统的纵向扩展方式相比,它具有更好的数据处理性能和可靠性;MongoDB的底层是通过与RDB行存储不同的列存储方式来进行数据组织,空字段并不占用实际的存储空间,这将大大降低了存储资源的浪费;另外,若采用分布式关系型数据库存放图文档元数据虽然能一定程度上减轻数据存储及访问压力,但因关系模式造成的死锁问题并不能带来高并发访问性能,同时随着数据规模的增大,该系统架构存在横向扩展困难等问题,引入MongoDB能够比较好地解决这些难题。
 
3.5本章小结
    本章概述了基于企业私有云的PDM系统体系结构,针对己有关系型数据库存储非结构化数据的不足,结合NoSQL和云存储的理论和方法,借鉴分布式存储思想,提出将NoSQL数据库加入以HDFS为基础的企业私有云存储平台中,组建存储资源网。针对图文档数据分布存储时文件大小阈值的确定,结合多维属性决策理论,提出一种存储系统综合评判模型。阈值的确定将在第五章中验证。


本文为御云清软英泰PLM软件原创文章,如想转载,请注明原文网址摘自于
http://www.plmpdm.cn/dongtai/245.html 否则,禁止转载;谢谢配合!

  • 2018-11-08 17:37
  • 我要分享:
声明:文章"NoSQL的PDM图文档存储"为XXX公司原创文章,转载请注明出处,谢谢合作!您所在位置:PLM系统 > PLM新闻 > PDM资讯 >

联系清泰代表

热门文章
热门标签