大规模数据持久化存储_传统大数据存储的架构有哪些各有什么特点

A. 数据的持久化存储

文件存储是Android中最基本的一种数据存储方式，不对存储的内容进行任何格式化处理，所有数据都是原封不动的保存在文件找那个，比较适合存储一些简单的文本数据或二进制数据。
1.将数据存储在文件中

B. 什么是NoSQL数据库

1 理解ACID与BASE的区别（ACID是关系型数据库强一致性的四个要求，而BASE是NoSQL数据库通常对可用性及一致性的弱要求原则，它们的意思分别是，ACID：atomicity, consistency, isolation, rability;BASE：Basically Available, Soft-state, Eventually Consistent。同时有意思的是ACID在英语里意为酸，BASE意思为碱）

2 理解持久化与非持久化的区别。这么说是因为有的NoSQL系统是纯内存存储的。

3 你必须意识到传统有关系型数据库与NoSQL系统在数据结构上的本质区别。传统关系型数据库通常是基于行的表格型存储，而NoSQL系统包括了列式存储（Cassandra）、key/value存储（Memcached）、文档型存储（CouchDB）以及图结构存储（Neo4j）

4与传统关系数据库有统一的SQL语言操作接口不同，NoSQL系统通常有自己特有的API接口。

5 在架构上，你必须搞清楚，NoSQL系统是被设计用于成百上千台机器的集群中的，而非共享型数据库系统的架构。

6在NoSQL系统中，可能你得习惯一下不知道你的数据具体存在何处的情况。

7 在NoSQL系统中，你最好习惯它的弱一致性。”eventually consistent”(最终一致性)正是BASE原则中的重要一项。比如在Twitter，你在Followers列表中经常会感受到数据的延迟。

8 在NoSQL系统中，你要理解，很多时候数据并不总是可用的。

9 你得理解，有的方案是拥有分区容忍性的，有的方案不一定有。

C. 大量数据能缓存到redis里面吗

不适合引子：

在大数据时代，总希望存在一个Key-value存储机制，像HashMap一样在内存中处理大量（千万数量级）的key-value对，以便提高数据查找、修改速度。

所以，我们会想到，Memcached和Redis这两个NoSQL数据库（严格来讲二者都不可以算作数据库）。

1、Memcached是一个cache机制，当内存不足时会采用LRU机制，替换出陈旧数据，因此他不能保证我们的数据像在HashMap中一样不丢失，且没有数据持久化机制；

2、Redis克服了这一缺点，采取磁盘存储机制实现数据持久化。但是，当数据量达到1千万左右时，由于内存中不能存储如此大量数目的数据，频繁同磁盘进行数据交换，导致数据查询、存储性能的急剧下降，将导致服务不可用。

结论：当前还没有好的产品可以实现key-value保证数据完整性，千万级条数量级的，高效存储和查询支持产品。

附录一：如下是转自其它网友的测试数据：

附录二：memcached 和redis的比较，和各自用途

附录一：

从图中可以猜测到还会有Redis 2.2.1 的测试，相同的测试环境，1K的数据量，使用ServiceStack.Redis客户端进行如下测试：

1) Set操作

2) Get操作

3) Del操作

每一套测试分别使用三个配置进行测试：

1) 绿色线条的是开启Dump方式的持久化，5分钟持久化一次

2) 蓝色线条是开启AOF方式的持久化，每秒写入磁盘一次

3) 红色线条是关闭任何的持久化方式

对于每一个配置都使用相同的其他配置：

1) 开启VM 最大内存10GB(128字节一

D. iOS中常用的几种持久化存储

1、偏好设置(NSUserDefaults)
2、plist文件存储
3、归档
4、SQLite
5、Core Data

我们首先需要了解下沙盒（Sandbox）

Application ：存放程序源文件，上架前经过数字签名，上架后不可修改
Documents : 保存应⽤运行时生成的需要持久化的数据,iTunes同步设备时会备份该目录。例如,游戏应用可将游戏存档保存在该目录
tmp : 保存应⽤运行时所需的临时数据,使⽤完毕后再将相应的文件从该目录删除。应用没有运行时,系统也可能会清除该目录下的文件。iTunes同步设备时不会备份该目录。
Library/Caches : 保存应用运行时⽣成的需要持久化的数据,iTunes同步设备时不会备份该目录。⼀一般存储体积大、不需要备份的非重要数据，比如网络数据缓存存储到Caches下
Library/Preference : 保存应用的所有偏好设置，如iOS的Settings(设置) 应⽤会在该目录中查找应⽤的设置信息。iTunes同步设备时会备份该目录

NSUserDefaults是个单例类，用于存储少量数据。NSUserDefaults实际上对plist文件操作的封装，更方便我们直接操作，一般用于存储系统级别的偏好设置。比如我们经常将登录后的用户的一些设置通过NSUserDefaults存储到plist文件中。

NSUserDefaults使用起来非常简单，例如将用户的账号和密码存储起来：

E. 数据持久化

Android系统下的文件分为两类：一类是共享文件，如存储在SD卡上的文件，这种文件任何的Android应用都可以访问；另一类是私有文件，即Android应
用自己创建的文件。Android中对文件的读写与javaSE的文件读写一样，都是采用IO流。但是对于私有文件，只有具有访问权限的用户才能使用，因此，Android提供了一组特有的API来完成对私有文件的读写。
即 Context类中提供的FileInputStream openFileInput(String name)和
(String name,int mode)方法
，获取文件输出流或者文件输入流，之后就是利用 Java 的各种流来进行读写操作就可以了。其中参数mode，即对文件的操作模式。

sharedpreference是一种轻量级的键值对存储机制，只用于存储基本数据类型，主要针对系统配置信息的保存。
三种方法获取SharedPreferences对象
1， Activity提供了如下获取方法
public SharedPreferences getPreferences(int mode)
2，PreferenceManager提供的方法，
// SharedPreferences pref = PreferenceManager.getDefaultSharedPreferences(context);
其实质是调用了context的getSharedPreferences方法，故第三中方法为：
// SharedPreferences pref =getSharedPreferences("myPref", MODE_PRIVATE);
//写入数据通过SharedPreferences 获取Editor对象来完成；
Editor editor = pref.edit();
通过Editor对象存数据(数据以xml文档的形式存放)
editor.putString("name","张三");
edtior.commit(); //提交，完成数据的存入
//获取数据：直接调用SharedPreferences 的getXXX()方法实现
pref.getString("name","default")

F. 为什么数据持久化存储不了可变的数据类型

因为数据持久化存储就是最大程度上减少对数据库的访问，使持久化不依赖于底层数据库和上层业务逻辑实现，更换数据库时只需修改配置文件而不用修改代码。
数据持久化就是将内存中的数据模型转换为存储模型,以及将存储模型转换为内存中的数据模型的统称. 数据模型可以是任何数据结构或对象模型,存储模型可以是关系模型、XML、二进制流等。cmp和Hibernate只是对象模型到关系模型之间转换的不同实现。

G. 什么是数据持久化

数据持久层就是把数据保存到可掉电式存储设备中。
所属是三层结构。
J2EE的三层结构是指表示层（Presentation），业务逻辑层（Business Logic）以及基础架构层（Infrastructure），这样的划分非常经典，但是在实际的项目开发法中，开发者通常对三层结构进行扩展来满足一些项目的具体要求，一个最常用的扩展就是将三层体系扩展为五层体系，即表示层(Presentation)、控制/中介层(Controller/Mediator)、领域层(Domain)、数据持久层(Data Persistence)和数据源层(Data Source)。

控制/中介层位于表示层和领域层之间，数据持久层位于领域层和基础架构层之间。由于对象范例和关系范例这两大领域之间存在“阻抗不匹配”，所以把数据持久层单独作为J2EE体系的一个层提出来的原因就是能够在对象－关系数据库之间提供一个成功的企业级映射解决方案，尽最大可能弥补这两种范例之间的差异。

H. 传统大数据存储的架构有哪些各有什么特点

数据源：所有大数据架构都从源代码开始。这可以包含来源于数据库的数据、来自实时源(如物联网设备)的数据，及其从应用程序(如Windows日志)生成的静态文件。

实时消息接收：假如有实时源，则需要在架构中构建一种机制来摄入数据。

数据存储：公司需要存储将通过大数据架构处理的数据。一般而言，数据将存储在数据湖中，这是一个可以轻松扩展的大型非结构化数据库。

批处理和实时处理的组合：公司需要同时处理实时数据和静态数据，因而应在大数据架构中内置批量和实时处理的组合。这是由于能够应用批处理有效地处理大批量数据，而实时数据需要立刻处理才能够带来价值。批处理涉及到长期运转的作业，用于筛选、聚合和准备数据开展分析。

分析数据存储：准备好要分析的数据后，需要将它们放到一个位置，便于对整个数据集开展分析。分析数据储存的必要性在于，公司的全部数据都聚集在一个位置，因而其分析将是全面的，而且针对分析而非事务进行了优化。

这可能采用基于云计算的数据仓库或关系数据库的形式，具体取决于公司的需求。

分析或报告工具：在摄入和处理各类数据源之后，公司需要包含一个分析数据的工具。一般而言，公司将使用BI(商业智能)工具来完成这项工作，而且或者需要数据科学家来探索数据。

“大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集，亦指那些在传统基础设施中长期保存的数据。大数据存储是将这些数据集持久化到计算机中。

I. 什么是数据持久化为什么要持久化

数据持久化就是将内存中的数据模型转换为存储模型,以及将存储模型转换为内存中的数据模型的统称. 数据模型可以是任何数据结构或对象模型,存储模型可以是关系模型、XML、二进制流等。cmp和Hibernate只是对象模型到关系模型之间转换的不同实现。

数据持久化对象的基本操作有：保存、更新、删除、查询等。

Hibernate框架中数据持久化机制：

在业务程序与数据库之间，Hibernate框架使用Session会话，来完成数据的提交、更新、删除、查询等等。

1、向数据库提交数据

在程序中保存对象时，会把数据保存到Session会话中，然后根据框架的配置文件，自动或手动决定什么时候把这种保存提交到数据库。

2、从数据库中查询数据

在查询数据之前，需要清理缓存（手动清理，或者通过配置文件框架自动清理）清理缓存的目的是为了使Session会话中的数据与数据库中的数据保持一致。然后程序只需要查询Session会话中的数据即可。

(9)大规模数据持久化存储扩展阅读：

使用数据持久化有以下好处：

1、程序代码重用性强，即使更换数据库，只需要更改配置文件，不必重写程序代码。

2、业务逻辑代码可读性强，在代码中不会有大量的SQL语言，提高程序的可读性。

3、持久化技术可以自动优化，以减少对数据库的访问量，提高程序运行效率。

J. 持久存储是什么意思

将内存中的数据以文件的形式存储到各种盘中。统称“持久化存储”。因为内存中数据总是会在断点之后丢失的。

大规模数据持久化存储

与大规模数据持久化存储相关的内容