非结构化文档数据存储_请教：关于结构化和非结构化数据存储

1. 什么是结构化数据，非结构化数据和半结构化数据

结构化数据也称为行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。结构化数据标记是能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记，便能使网站在搜索结果中良好地展示丰富网页摘要。

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。

半结构化数据具有一定的结构性，是一种适于数据库集成的数据模型。也就是说，适于描述包含在两个或多个数据库（这些数据库含有不同模式的相似数据）中的数据。它也是一种标记服务的基础模型，用于Web上共享信息。

(1)非结构化文档数据存储扩展阅读：

结构化数据的标记方式

1、使用HTML代码标记

HTML代码标记的方式主要有3种：微数据、微格式和RDFa。但对于一些外贸站站来说，标记是以微数据为主，少许时候也会用到微格式，视不用的页面类型而定。

2、使用微数据标记

使用微数据标记的话，主流是使用schema进行标记。但由于页面上有些项, schema并没推出相应的标记代码，从而也得仍旧使用data-vocabulary来标记，这样的话页面代码上就会出现新旧代码并存的情况。

2. 油田地质档案中非结构化数据管理模式探索

李燕

(中国石油化工股份有限公司西南油气分公司信息中心档案馆)

摘要本文针对非结构化数据管理中存在的问题，分析了西南油气田地质档案非结构化数据管理特点，提出了数据采集、数据存储、数据管理与数据利用的技术架构，并对非结构化数据的管理、应用进行了深刻剖析，总结出了以技术解决方案、行政管理模式和数据服务三位一体的管理模式，为油田地质档案中非结构化数据的管理与应用探索出了一个有效的模式。

关键词非结构化数据存储地质档案应用管理

0 引言

随着我国经济建设的不断发展，信息资源越来越成为企业或者组织的核心和命脉。对于信息密集型的石油行业来说尤其如此。在多年的生产实践中，国内的石油行业已经发展出了针对大部分信息的数据综合管理、数据应用、企业标准和行业标准等技术和成果，极大地支撑了石油勘探开发的各个过程。然而，和国外的石油公司相比，在信息资源的协同、分析、挖掘、共享、决策支持、集群计算上还存在一定的差距，这其中的核心要点就是如何对非结构化数据进行有效的存储和利用。

对于典型的石油工业企业来说，信息资源存在于各种载体中，例如纸质的书籍或者论文、PDF文档、图形图像文件、扫描件、电子书、光盘等，这些信息最终都可以转化为非结构化数据。而对非结构化信息的管理需要面对如下问题：

高容量：非结构化数据通常是一个或多个文档、图件、多媒体等，容量在百兆、千兆级的比比皆是。

异构化：非结构化数据的来源、格式、载体都各不相同，难以进行统一的管理和检索。

复杂性：非结构化数据因其高容量、异构的特点，在存储、检索、过滤、提取、分析和挖掘方面非常复杂。

再处理：非结构化数据在定制、交换、加密方面存在大量的个性化需求，格式的差异和多样性也导致了对这些数据的再处理非常困难。

本文即是对这些问题进行详细的讨论和研究，结合油气田地质档案非构化数据的存储与利用，探讨一种可行的方法和合理的解决方案。

1 非结构化数据管理的技术架构

非结构化数据与结构化数据相对，系指不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音/视频信息等。

西南油气田通过配置和集成软硬件产品，设计并实施了适合非结构化数据存储与利用的技术架构，由低到高分别是数据采集(预处理)、数据存储、数据管理、数据使用(图1)。

图1 非结构化数据存储与利用的技术架构图

数据采集是非结构化数据管理最基础的过程，是把原始的或者第一手的资料转化成可供处理的数字化信息的关键步骤。

非结构化数据存储是把勘探科研、生产、管理中产生的文档、图件、专着存放在数据库或者文件服务器上。一般采用两种方式：一是把非结构化数据转换成二进制流，存放在关系型数据库中，同时一并记录相关的辅助信息(可自定义)；二是把非结构化数据保存到目录服务器上，在关系数据库中只记录目录服务器上的索引信息和辅助信息(可自定义)。图2示意了这两种方式。

图2 非结构化数据存储示意图

数据管理是对已经存储成功并且经过了结构化的信息进行再处理，包括数据的分类、检索、元数据化、标准化、统计和归并。

数据使用是非结构化数据管理的最终目的，信息如果不能交流、共享，那么一个组织产生的信息再多，也不免成为信息孤岛。采用基于.net和Web Service体系架构，为信息的共享和协同提供了技术上的保障。

2 非结构化数据管理应用解析

西南油气田按非结构化数据管理的技术架构开发并组建了西南油气田地质资料管理平台体系，对非结构化数据的管理实现了6大功能：非结构化数据的整理、元数据、基于索引服务器的全文检索、索引编制、任务管理、知识管理(表1)。

表1 中石化西南油气田非结构化数据管理功能统计表

2.1 非结构化数据管理的功能架构

西南油气田地质资料管理平台是一个完全的B/S模式资料管理系统和信息发布系统，其中，地质资料管理系统包括用户管理、机构管理、权限管理、日志管理、数据管理、资料上传、资料整理、资料审核、元数据、资料检索。信息发布系统包括资料借阅、资料上传、在线浏览、资料检索、下载。

除了能够完成资料管理和信息发布的功能外，还依据自身的工作方式，在平台中加入了本企业元素，如：资料属性的自定义、用户功能选择、借阅流程与归档着录一体化流程的植入、上传和下载的压缩与加密、用户与安全方案的自动绑定，新到资料的查询、个性化报表的查询和打印、催还信息的发布等。主要功能架构如图3。

图3 功能架构图

2.2 西南油气田地质资料非结构化数据管理的主要特点

2.2.1 地质资料及文档的包装和结构化

在数据存储方面，采用了基于Web Service数据访问层组件，通过修改设置可以分别连接Oracle 9 i数据库、SQL Server 2000数据库等多种数据库，用户可以根据需要选择。地质资料及文档的包装和结构化是指在数据采集和存储方面采用了“资料体-文件体”的二元封包方式。对所有类型的文件或者文件集合都可以定义为资料体，同时采用元数据对资料体进行描述；从逻辑上来说，资料体是一个或者多个文件实体的集合，通过这种方式，就统一了各类非结构化数据的表现形式、外观和行为，有利于将来的数据交换和协同。图4描述了这种二元关系。

图4 非结构化数据的二元封包方式

2.2.2 任务管理

文档资料被采集并提交，资料体和元数据信息就会被写入关系数据库中(目前支持Oracle)，而文件体会通过任务自动上传到专门的文件服务器中，同时由索引服务自动为这个文件体创建索引。入库文档资料的默认存储方式是通过磁盘文件来存放的，如果需要把入库文档资料以二进制流的形式保存到关系数据库中，则需要部署和配置数据持久化服务。图5对文档资料采集和存储的过程进行了直观的描述。

图5 文档资料采集和存储的任务管理流程

任务管理是对上传下载过程的任务化。为了应对文档资料的采集要求，使用上传任务来管理上传过程，整个过程可以通过服务在后台依次自动完成，对用户的操作不造成任何影响，避免了传统的文件采集过程中用户需要耗费大量的时间来等待上传；为了确保数据的完整性，上传过程支持断点续传。直观的上传任务管理器把需要上传的文档存放在任务队列中，用户可以随时停止或者启动上传任务，最大程度的减少因为网络状况或者容量问题带来的不便。

2.2.3 元数据的定义和描述

在数据采集的过程中可以对文件定义元数据，文件的元数据继承自所属的案卷属性，这样一旦将文件归入某一个资料类别，那么就可以设置这个文件的扩展信息；另一方面，分类的元数据格式能够成为这一类文件的元数据模板，同类文件的元数据格式都是相同的，便于进行同类资料的数据交换。图6说明了案卷(资料类型)、文件和元数据的关系。

元数据作为非结构化数据的标签，其意义是非常重要的，系统的检索功能的查全和查准率主要是基于元数据的定义是否合理和准确，因此系统必须要提供元数据信息的修改和动态扩展功能，只有提供了上述功能，系统的信息描述才可能准确和丰富，这也是很多类似的信息系统所缺乏的。

图6 案卷、文件和元数据的关系

依据中石化企业标准《Q/SH0167—2008石油天然气勘探与开发地质资料立卷归档规则》，根据地质资料管理的特点，结合西南油气田的实际情况，需求分析，明确各种(系统管理、资料加载和在线浏览、资料查询、资料借阅和下载、资料销毁、资料压缩加密、资料审核、资料接收和分发)功能，对地质资料的文件元数据、档案元数据、企业扩展元数据进行了充分研究与定义，实现了不同类别的地质资料定义不同属性，方便查询与借阅。例如表2。

表2 地质资料元数据属性表

2.2.4 基于文件索引服务器的全文检索

对非结构化数据的检索采用了两种方式：基于属性、关键字的精确检索和基于内容的全文检索。全文检索过程采取了提交—建索引—查找—组织结果—返回的过程来完成。非结构化数据被提交到了文件服务器，索引服务程序就创建或者更新索引文件(自动过程)，当用户发出检索请求时，通过搜索引擎，获取包含请求内容的结果并返回给请求者。索引服务程序能够从入库的文档资料中自动抽取文本内容(图7)。

索引服务程序的工作包括：侦测文件目录的变化，文件被上传、移动、修改或者删除，就更新对应的索引；定期对文件目录的整个范围进行索引优化，保障索引在全局上的有效性和效率，这个工作可以自动完成，也可以由用户手动完成。

西南油气田基于此提供多种逻辑查询，如模糊查询、全文查询、精确查询，以及目录浏览和全文浏览。如图8。

图7 全文检索工作过程

图8 查询检索截图

2.3 西南油气田非结构化管理应用效果

西南油气田从2005年开始全面启动地质资料非结构化数据建设，经过多年的共同努力，全面完成了地质资料的非结构化目录数据库建设，共计入库地质资料条目125万条，完成了不同类别地质资料的元素据设计并进行了全面属性提取，提取的内容包括了文件元数据、档案元数据以及企业扩展元数据三大类，为地质资料网络化管理与利用提供了强有力的搜索引擎包。

同时，按照非结构化数据建设理论，西南油气田积极开展了成果地质资料全文数据库与地质图形库的建设，通过历史文档与图形的扫描整理，共计入库电子文档24万个，总容量2.9 T。与油田气地质资料目录数据库相结合，通过地质资料管理系统，实现了地质资料非结构化数据网络完整发布与全面应用。

经统计分析，在实现非结构化数据的网络化管理与应用以后，西南油气田近5年地质资料年平均利用率高达11万件次/年，是建成前的4.5 倍，有效提高了地质档案资料的管理、使用水平，节约了成本，取得了良好的经济效益。

3 非结构化数据的管理模式探索

作为企业信息资源的表现形式，非结构化数据的管理不单单是一个技术体系或者一个系统，而应该是一个庞大的系统工程。笔者根据西南油气田地质档案多年的信息化建设经验和非结构化数据管理经验，认为“技术解决方案、行政管理模式和数据服务”三位一体的管理模式是油气田非结构化数据管理的有效模式(如图9 所示)。

图9 非结构化数据管理模式图

首先，行政管理模式是整个非结构化数据管理的组织保障，由稳定的管理团队、完备的可行性研究、明确的管理需求、充分的风险评估以及务实的组织实施组成。良好的行政管理模式能够确保一个组织上下一心，共同推进信息体系建设，可以说它决定整个体系建设的成败。

数据服务是非结构化数据信息管理的基础。是指对非结构化数据进行采集、创建、加工、传递、组织、整理与规范的过程。同时也是用户和开发者之间的润滑剂，首先它能够按照用户的需求为用户处理大量枯燥的数据整理和规范工作，其次从用户的角度，指出软件的缺陷，并敦促开发者进行修改。通过数据服务，可以有效地保障用户业务的高效运转、技术体系的不断完善，发挥信息体系建设的最大效能。

技术解决方案从产品层面为非结构化数据的管理提供了软硬件平台，是从数据采集到应用的完整的技术体系。包括：基于多种大型关系数据库的信息存储体系、基于内容的非结构化数据的文件服务器、提供全文检索、关联检索的索引服务器、基于元数据的灵活的文件交换格式和个性化定制、灵活的权限策略和强大的安全策略；技术解决方案是非结构化数据存储与利用的核心。

4 结束语

非结构化数据存储和应用是各油田分公司勘探决策支持系统的重要组成部分，这一部分研发成功后，能够为决策支持所需要的信息资源提供基础的平台。同时，基于这个平台之上的非结构化数据的应用能够直接为决策支持系统服务，通过信息协同、文件检索、数据挖掘和知识管理等技术和概念的应用，能够使油气田信息化建设上缩短甚至达到国际先进水平，向着勘探数字化、数据资产化、工作协同化和决策科学化方向迈进一大步，从而带来巨大的经济效益和社会效益。

参考文献

[1]张志刚，姚玮.海量非结构化数据存储问题初探[J].中国档案，2009(8).

[2]吴广君，王树鹏，陈明，李超.海量构化数据存储检索系统[J].计算机研究与发展，2011(7).

3. “数据仓库之父”谈如何处理非结构化数据

毫无疑问，这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了，你如何处理那些非结构化数据？在本文中，让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。
虽说非结构化数据很难处理，但是它已经存在很久了，肯定比计算机的历史还要久远。不信的话，想想圣经，埃及象形文字，和卡马河佛经这些骨灰级的东西，它们都是非结构化数据，它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间，但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了，但想随心所欲的处理包含非结构化数据信息的时代还没有到来，至少目前是这样的。这是什么原因造成的呢？
1、无用输入，无用输出：
只有实现非结构化数据到数据仓库的抽取，搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难，想想那些很早就提出来的信息技术难题：无用信息输入，无用信息输出（GIGO），就会知道即使功能再强大的搜索引擎，用来处理那些实质上未经提炼和整和的数据会得到什么结果？搜索引擎的结果会告诉我们答案，返回给用户的也将会是一些没有提炼，无用的信息。
因此，在搜索之前，那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话，就不会有无用信息的输入，那么将不会产生无用的输出信息。
2、Internet数据和公司数据的差异：
通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山，大海捞针。
但是公司数据就是另外一回事了，有以下两个原因。第一，当提到公司数据，它的总量和类型是有限的，而Internet上的数据正好相反，无穷无尽。第二，不像Internet数据，公司数据几乎和公司的事务相关。我可以很肯定的说，Internet上的数据上只有小部分的数据和公司的事务相关。
因此，整合公司文本数据，或者为了研究或者分析的目的而去整合，是非常可行的。
3、什么样的公司数据需要整合：
因此什么样的公司数据需要被整合呢？很明显，有这么些类型的公司数据应该被整合，包括：
1．客户数据——那些与客户信息相关的数据
2．安全性数据——如意外事件，审查，修理，特约条款等等这些重要的事件
3．合同数据——与公司合同相关的数据
4．发现数据（Discovery data）——诉讼过程中的数据
5．顺应性数据（Compliance data）——针对公司敏感事件和事务的描述
由此看出，公司数据限制很少，或者从理论上说，是没有限制的。
4、数据整合的优势：
整合公司文本数据的重大优点之一，就是一旦整合，它们就可以输入到数据仓库中，并且能重用。也就是说，公司文本数据只需要整合一次。整合之后，只要你愿意，你可以多次研究和分析这些数据，可谓一劳永逸。
值得一提的是，在这公司文本数据整合后，就可以放入到数据仓库中。一旦进入了数据仓库，这些数据就能与结构数据结合到一起。
5、客户信息分析：
举个例子，如针对公司的客户信息管理系统，就要分析客户信息。通常会从客户那里收到e-mail。但是，一旦那些e-mail阅读之后，通常就被放在一边了。这些读过的邮件将会存放到一个文件夹里，从此这些邮件就在那里搁置着，与另外上千的e-mail堆放在一起。
问题是，当公司需要这些信息的时候，这些信息却很难找到。当一些e-mail涉及到潜在的未来信息，就显得更加重要了。
客户琼斯夫人案例分析
为了证明以上观点，让我们看看一个案例，这个案例的主角是一位叫琼斯夫人的客户。假设她上个月写了一个e-mail来严厉批评公司的销售人员，因为她的一个订单被延误了。而正好这个月，公司的另外销售人员准备打电话给琼斯夫人，请求下更多的订单。这是时候，对于那个销售人员来说，上个月的来自琼斯夫人的e-mail重不重要呢？
答案当然是非常重要的。如果我们想给琼斯夫人推销更多的新产品，这个时候关于客户最近的任何信息都是非常重要的，无论正面了解的信息，还是从琼斯夫人那里反馈的信息。因此，摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail？如何过滤掉那些不相关的e-mail？
这里说的例子，只是其中的一个，许多的例子都需要用到非结构文本数据，如果为公司文本数据设计一个专门的整合过程，将这些公司文本数据能存储到一个数据仓库里，查找、过滤信息就好办多了。
注：数据无非包括结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中，因为不管是3NF还是星型模型，它们在结构上都属于结构化数据。而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

作者简介

比尔•恩门（Bill Inmon），被称为数据仓库之父，最早的数据仓库概念提出者，在数据库技术管理与数据库设计方面，拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

4. MongoDB挑战传统数据库：非结构化数据库的迭新不容小觑

相比甲骨文中国在中国市场的裁员风波，同为数据库服务的MongoDB显得更为乐观。“MongoDB是中国开发者最喜欢用的一个数据库。”MongoDB全球渠道及亚太区销售高级副总裁Alan Chhabra带着一点自信和骄傲在媒体面前宣称。

中国企业的数字化转型正进入关键期，在打造开放、高效、灵活、共享的云计算基础设施的同时，数据库的更新换代也被提上了日程。

日前，非结构化数据库平台提供商MongoDB在上海举办用户大会，MongoDB全球渠道及亚太区销售高级副总裁Alan Chhabra接受了亿欧企业服务频道的采访， 并针对去年修改开源协议，在SSPL的不同许可机制下授权服务器软件的争议以及其他疑问作出回应。

数据库的本质是解决数据的存储和管理问题。 Alan Chhabra表示，对企业发展具有战略意义的数据库正在催生巨大的市场。

在这些潜力颇大的数据库中，市场上目前存在着的是关系型的传统数据库和以Mongo DB为代表的非关联式新型数据库。传统数据库比较典型的是甲骨文旗下的Oracle数据库、IBM推出的大数据平台Hadoop和Stream Computing、微软的SQL Server、SAP以及EMC Greenplum。 他们的主要差别在于数据库的结构化和非结构化。

结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据，存储和排列很有规律，这对查询和修改等操作很有帮助，但扩展性和灵活性欠佳。 非结构化数据库就是各种文档、图片、视频/音频等没有固定结构的数据，一般直接整体进行存储为二进制的数据格式。 目前涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域。

MongoDB是文档型的非结构化新型数据库，Alan Chhabra表示， 与传统数据库相比，更能满足用户数据存储量大、计算灵活的需求。“在某些客户某些案例上，我们已经取代了传统数据库，比如甲骨文。”

当前， 软件对于商业模式的改变、开发人员地位的提高，以及企业向云端迁移的趋势 都让数据服务公司的发展得到了助力。但从毕马威会计事务所对首席信息官的调查结果来看， 88%的首席信息官认为他们未能从数字化战略中充分获益；82%的首席信息官认为其所在机构在利用技术推动业务发展方面并非“卓有成效”。 也就是说， 大多数公司的数字化战略是以失败告终的。

在此背景下，更加灵活、性能更加强大的新型数据库在一些领域获得了试验田丰收，并且可以看到，随着客户数据需求的繁杂程度的日益增加，传统数据库也在自我革新，以迎头赶上数据浪潮的大变革。

MongoDB成立于2007年，2017年在纳斯达克上市。最初，MongoDB是一项面向技术爱好者的技术，如今已成为一项企业级的业务关键技术。通过不断开发数据库即服务（Database-as-a-Service）产品，积极拥抱云计算，MongoDB在过去十年里，为开发人员提供了处理数据的方法。正因如此，它也成了企业数字化转型战略的一个关键部分。

MongoDB提供的产品主要包括MongoDB云服务MongoDB Atlas、MongoDB Mobile、MongoDB企业版和MongoDB Stitch等十余个相关产品。Alan Chhabra表示，产品包括了 开源版、付费版和云版。

2018 年 10 月，MongoDB宣布其开源许可证将从GNU AGPLv3切换到SSPL，新许可证将适用于新版本的MongoDB Community Server以及打过补丁的旧版本，这一举动引发了行业热议。基于GNU AGPLv3协议，企业可以将MongoDB作为公共服务但这需要企业开源自己的软件或是获得MongoDB的商业授权，事实却是MongoDB发现许多企业正在违反协议“疯狂试探”甚至已经违反协议。 SSPL（ Server Side Public License）顾名思义，要求使用者必须得到服务器端公共许可证，这一协议会进一步约束商业公司使用MongoDB服务。

Alan Chhabra向亿欧解释， SSPL 针对的是提供MongoDB托管服务的云服务厂商。 也就是说，如果不是云服务厂商，没有公然售卖MongoDB产品，而只是作为应用后台数据库来使用的话，那么无论你是电商、物联网、金融、社交、游戏、移动应用等等，一概都不会有任何影响。 “MongoDB的宗旨还是为了始终支持并保护创新开放。”

但此开源协议的修改明显带来了市场用户的“掉粉”，比如Linux 社区的接连“弃用”，以及AWS 、IBM、微软推出了兼容MongoDB的相关产品来服务用户。

数据库开源的商业变现与创新形成的矛盾，目前似乎还尚未找到解决方案。

Alan Chhabra在大会上也透露了MongoDB的未来计划，即将基于智能运营数据平台和下一代基础架构、文化、方法论和安全，推动原有系统的现代化、数据即服务、云数据策略、业务敏捷性，进而帮助客户实现以数据驱动的数字化转型。

针对MongoDB在中国的发展情况， Alan Chhabra表示，公司将以创新立足，持续引领数据库技术发展潮流，与合作伙伴携手助力中国企业的数字化转型。

MongoDB北亚区副总裁苏玉龙认为：“中国是数据大国，而数据就是未来的石油。如何利用好数据，让数据石油助力中国企业腾飞是MongoDB希望在中国达成的事情。随着中国企业数字化转型逐渐走向深入，MongoDB数据库的价值得到不断释放。”

本文作者龚晨霞，微信Gcx847076575，欢迎关注企业服务和产业互联网的朋友加微信交流。

5. 请教：关于结构化和非结构化数据存储

（1）结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；政府行政审批；其他核心数据库等。这些应用需要哪些存储方案呢？基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

（2）非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图像、声音、影视、超媒体等信息）。

面对海量非结构数据存储，杉岩海量对象存储MOS，提供完整解决方案，采用去中心化、分布式技术架构，支持百亿级文件及EB级容量存储，具备高效的数据检索、智能化标签和分析能力，轻松应对大数据和云时代的存储挑战，为企业发展提供智能决策。

6. 什么是结构化数据和非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。

非结构化数据的特点：

分析数据不需要一个专业性很强的数学家或数据科学团队，公司也不需要专门聘请IT精英去做。真正的分析发生在用户决策阶段，即管理一个特殊产品细分市场的部门经理，可能是负责寻找最优活动方案的市场营销者，也可能是负责预测客户群体需求的总经理。

终端用户有能力、也有权利和动机去改善商业实践，并且视觉文本分析工具可以帮助他们快速识别最相关的问题，及时采取行动，而这都不需要依靠数据科学家。

以上内容参考：

网络-非结构化数据

7. 企业非结构化数据存储用哪家的比较好要国内的厂商

杉岩、星辰天合、元核云等，这些国内的存储厂商都做得挺好的，也能满足你问题中的需求。

非结构化文档数据存储

与非结构化文档数据存储相关的内容