千万级数据存储需要多大_sql server需要存储1000万条数据该怎么办

‘壹’ 十万人名单储存在电脑里需要多大内存

十万人名单储存在电脑里需要500G内存我们都知道1G等于1024mB。现在我们比较常见的话，一张照片大约在5mb左右，那么10张50MB，100张500MB，1000张等于5000MB(5g)。1万张等于50000MB(50g)，10万张就等于50万MB(500g)，表面上看500G的硬盘就够了，但实际500g的硬盘在电脑上的算法并不是说1g等于1024MB算的。

内存大的优势

主要是在多任务的情况下速度要快些，内存实际上就是一块临时是有存储空间，每一个软件在运行的时候都要来划一块，所以如果内存比较小的话，运行几个程序后再运行一个程序它们就要抢内存了，也就是说此时的内存已经严重的影响了机子的速度，但是如果内存足够大的话，这个问题很明显就不会出现了。

‘贰’ 200亿条数据需要多大存储

2TB。200亿条数据需要2TB存储，数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。

‘叁’ 多大的数据，才能称为大数据呢

5. Veracity（真实性）

大数据就一定真实么？并没有。为什么这么说呢，想象一下当下泛滥的作弊流量吧，你还敢确保你的用户数据并没有虚假的吗？所以，大数据也是可以造假的，我们一定要有一双智慧的眼睛却辨别大数据的好坏。

‘肆’ 100万条记录需要多少ms sql 数据库空间

不知道你说的一般内容是什么内容如果有很多Text或者varchar(5000) 那容量也就难算了。

一般来说百万条记录可以初略算一下
假设一条记录平均占用 1kb 那么一百万记录大致需要
1kb * 1000 *1000 约＝ 1G

‘伍’ 我存大数据需要多大容量硬盘合适

基本都是2T4T的移动硬盘，看个人储存需要的数据有多大，还有个人的经济预算。

‘陆’ 千万级数据

数据库吧，你用什么数据库

mysql可以配合lucene做搜索引擎，还不够大可以用cluster.一般你用like没问题，索引要做得好。

如果大家有异议，可以在后面补充。我会随时更新的。

现在大概列出如下:(望各位补充)
1.数据库的设计
尽量把数据库设计的更小的占磁盘空间.
1).尽可能使用更小的整数类型.(mediumint就比int更合适).
2).尽可能的定义字段为not null,除非这个字段需要null.（这个规则只适合字段为KEY的情形）
3).如果没有用到变长字段的话比如varchar,那就采用固定大小的纪录格式比如char.（CHAR 总是比VARCHR快）
4).表的主索引应该尽可能的短.这样的话每条纪录都有名字标志且更高效.
5).只创建确实需要的索引。索引有利于检索记录，但是不利于快速保存记录。如果总是要在表的组合字段上做搜索，那么就在这些字段上创建索引。索引的第一部分必须是最常使用的字段.如果总是需要用到很多字段，首先就应该多复制这些字段，使索引更好的压缩。
（这条只适合MYISAM引擎的表，对于INNODB则在保存记录的时候关系不大，因为INNODB是以事务为基础的，如果想快速保存记录的话，特别是大批量的导入记录的时候）
6).所有数据都得在保存到数据库前进行处理。
7).所有字段都得有默认值。
8).在某些情况下,把一个频繁扫描的表分成两个速度会快好多。在对动态格式表扫描以取得相关记录时，它可能使用更小的静态格式表的情况下更是如此。
(具体的表现为：MYISAM表的MERGE类型，以及MYISAM和INNODB通用的分区，详情见手册)
9).不会用到外键约束的地方尽量不要使用外键。
2.系统的用途
1).及时的关闭对MYSQL的连接。
2).explain 复杂的SQL语句。（这样能确定你的SELECT 语句怎么优化最佳）
3).如果两个关联表要做比较话，做比较的字段必须类型和长度都一致.（在数据庞大的时候建立INDEX）
4).LIMIT语句尽量要跟order by或者 distinct.这样可以避免做一次full table scan.
5).如果想要清空表的所有纪录,建议用truncate table tablename而不是delete from tablename.
不过有一个问题，truncate 不会在事务处理中回滚。因为她要调用create table 语句。
（Truncate Table 语句先删除表然后再重建，这个是属于文件界别的，所以自然快N多）
实测例子：
song2为INNODB表。
mysql> select count(1) from song2;
+----------+
| count(1) |
+----------+
| 500000 |
+----------+
1 row in set (0.91 sec)

mysql> delete from song2;
Query OK, 500000 rows affected (15.70 sec)
mysql> truncate table song2;
Query OK, 502238 rows affected (0.17 sec)

mysql>
{
这一点手册上有详细解释：
13.2.9. TRUNCATE语法

TRUNCATE [TABLE] tbl_name

TRUNCATE TABLE用于完全清空一个表。从逻辑上说，该语句与用于删除所有行的DELETE语句等同，但是在有些情况下，两者在使用上有所不同。

对于InnoDB表，如果有需要引用表的外键限制，则TRUNCATE TABLE被映射到DELETE上；否则使用快速删减（取消和重新创建表）。使用TRUNCATE TABLE重新设置AUTO_INCREMENT计数器，设置时不考虑是否有外键限制。

对于其它存储引擎，在MySQL 5.1中，TRUNCATE TABLE与DELETE FROM有以下几处不同：

· 删减操作会取消并重新创建表，这比一行一行的删除行要快很多。

· 删减操作不能保证对事务是安全的；在进行事务处理和表锁定的过程中尝试进行删减，会发生错误。

· 被删除的行的数目没有被返回。

· 只要表定义文件tbl_name.frm是合法的，则可以使用TRUNCATE TABLE把表重新创建为一个空表，即使数据或索引文件已经被破坏。

· 表管理程序不记得最后被使用的AUTO_INCREMENT值，但是会从头开始计数。即使对于MyISAM和InnoDB也是如此。MyISAM和InnoDB通常不再次使用序列值。

· 当被用于带分区的表时，TRUNCATE TABLE会保留分区；即，数据和索引文件被取消并重新创建，同时分区定义（.par）文件不受影响。

TRUNCATE TABLE是在MySQL中采用的一个Oracle SQL扩展。

}
6).能使用STORE PROCEDURE 或者 USER FUNCTION的时候.（ROUTINE总是减少了服务器端的开销）
7).在一条insert语句中采用多重纪录插入格式.而且使用load data infile来导入大量数据，这比单纯的indert快好多.（在MYSQL中具体表现为：INSERT INTO TABLEQ VALUES (),(),...();）
（还有就是在MYISAM表中插入大量记录的时候先禁用到KEYS后面再建立KEYS,具体表现语句：
ALTER TABLE TABLE1 DISABLE KEYS;ALTER TABLE TABLE1 ENABLE KEYS;
而对于INNNODB 表在插入前先 set autocommit=0;完了后：set autocommit=1;这样效率比较高。）
8).经常OPTIMIZE TABLE 来整理碎片.
9).还有就是date 类型的数据如果频繁要做比较的话尽量保存在unsigned int 类型比较快。
3.系统的瓶颈
1).磁盘搜索.
并行搜索,把数据分开存放到多个磁盘中，这样能加快搜索时间.
2).磁盘读写(IO)
可以从多个媒介中并行的读取数据。
3).CPU周期
数据存放在主内存中.这样就得增加CPU的个数来处理这些数据。
4).内存带宽
当CPU要将更多的数据存放到CPU的缓存中来的话,内存的带宽就成了瓶颈.
====
Another article more about tuning details:
http://www.informit.com/articles/article.aspx?p=29406&seqNum=1

http://blog.chinaunix.net/u/29134/showart_264480.html

‘柒’ sql server需要存储1000万条数据该怎么办

以现在的技术，有下面的提示给你：
一、配置为：双CPU（四核）/RAID5阵列硬盘的当前的典型数据服务器，可以存储每条数据长度不是过大的1000万条以上数据。
二、存储是一回事，处理好数据是另一回事，如果对这千万条数据，在做好关键字段的索引后，只是存储和查询的话，速度不会太慢，一般最多几秒内能给出查找结果。
三、但是，如果你要对这千万条数据进行分组汇总之类的操作的话，那就很麻烦了，可能慢到你无法接受，甚至会给出超时等报错的提示。解决的办法是，优化查询语句，进行存储过程的合理编写。
四、千万条数据一般会使得数据库文件的体积达到几十G甚至更多。

‘捌’ 能够存储的数据量一般有多大

1.数据库的大小限制：SQL Server 2005 Express 和SQL Server 2008 Express
数据库的大小限制最大为 4GB，最新版本的SQL Server 2008 R2 Express 数据库的大小限制最大为
10G。这个大小的限制只有在数据文件上，事务日志大小则不受此限。
2.只能使用一个 CPU 来运算，这在多个 CPU 的电脑上会造成浪费。

3.可使用的存储器量最高只有 1GB。

4.没有 SQL Agent，若要做调度服务必须自己写程序。

‘玖’ 互联网如何海量存储数据

目前存储海量数据的技术主要包括NoSQL、分布式文件系统、和传统关系型数据库。随着互联网行业不断的发展，产生的数据量越来越多，并且这些数据的特点是半结构化和非结构化，数据很可能是不精确的，易变的。这样传统关系型数据库就无法发挥它的优势。因此，目前互联网行业偏向于使用NoSQL和分布式文件系统来存储海量数据。

下面介绍下常用的NoSQL和分布式文件系统。
NoSQL
互联网行业常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子项目,理论依据为Google论文 Bigtable: A Distributed Storage System for Structured Data开发的。HBase适合存储半结构化或非结构化的数据。HBase的数据模型是稀疏的、分布式的、持久稳固的多维map。HBase也有行和列的概念，这是与RDBMS相同的地方，但却又不同。HBase底层采用HDFS作为文件系统，具有高可靠性、高性能。

MongoDB是一种支持高性能数据存储的开源文档型数据库。支持嵌入式数据模型以减少对数据库系统的I/O、利用索引实现快速查询，并且嵌入式文档和集合也支持索引，它复制能力被称作复制集（replica set），提供了自动的故障迁移和数据冗余。MongoDB的分片策略将数据分布在服务器集群上。

Couchbase这种NoSQL有三个重要的组件：Couchbase服务器、Couchbase Gateway、Couchbase Lite。Couchbase服务器，支持横向扩展，面向文档的数据库，支持键值操作，类似于SQL查询和内置的全文搜索;Couchbase Gateway提供了用于RESTful和流式访问数据的应用层API。Couchbase Lite是一款面向移动设备和“边缘”系统的嵌入式数据库。Couchbase支持千万级海量数据存储
分布式文件系统
如果针对单个大文件，譬如超过100MB的文件，使用NoSQL存储就不适当了。使用分布式文件系统的优势在于，分布式文件系统隔离底层数据存储和分布的细节，展示给用户的是一个统一的逻辑视图。常用的分布式文件系统有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比过去打电话、发短信、用彩铃的“老三样”，移动互联网的发展使得人们可以随时随地通过刷微博、看视频、微信聊天、浏览网页、地图导航、网上购物、外卖订餐等，这些业务的海量数据都构建在大规模网络云资源池之上。当14亿中国人把衣食住行搬上移动互联网的同时，也给网络云资源池带来巨大业务挑战。

首先，用户需求动态变化，传统业务流量主要是端到端模式，较为稳定；而互联网流量易受热点内容牵引，数据流量流向复杂和规模多变：比如双十一购物狂潮，电商平台订单创建峰值达到58.3万笔，要求通信网络提供高并发支持；又如优酷春节期间有超过23亿人次上网刷剧、抖音拜年短视频增长超10倍，需要通信网络能够灵活扩充带宽。面对用户动态多变的需求，通信网络需要具备快速洞察和响应用户需求的能力，提供高效、弹性、智能的数据服务。

“随着通信网络管道十倍百倍加粗、节点数从千万级逐渐跃升至百亿千亿级，如何‘接得住、存得下’海量数据，成为网络云资源池建设面临的巨大考验”，李辉表示。一直以来，作为新数据存储首倡者和引领者，浪潮存储携手通信行业用户，不断探索提速通信网络云基础设施的各种姿势。

早在2018年，浪潮存储就参与了通信行业基础设施建设，四年内累计交付约5000套存储产品，涵盖全闪存储、高端存储、分布式存储等明星产品。其中在网络云建设中，浪潮存储已连续两年两次中标全球最大的NFV网络云项目，其中在网络云二期建设中，浪潮存储提供数千节点，为上层网元、应用提供高效数据服务。在最新的NFV三期项目中，浪潮存储也已中标。

能够与通信用户在网络云建设中多次握手，背后是浪潮存储的持续技术投入与创新。浪潮存储6年内投入超30亿研发经费，开发了业界首个“多合一”极简架构的浪潮并行融合存储系统。此存储系统能够统筹管理数千个节点，实现性能、容量线性扩展；同时基于浪潮iTurbo智能加速引擎的智能IO均衡、智能资源调度、智能元数据管理等功能，与自研NVMe SSD闪存盘进行系统级别联调优化，让百万级IO均衡落盘且路径更短，将存储系统性能发挥到极致。

“为了确保全球最大规模的网络云正常上线运行，我们联合用户对存储集群展开了长达数月的魔鬼测试”，浪潮存储工程师表示。网络云的IO以虚拟机数据和上层应用数据为主，浪潮按照每个存储集群支持15000台虚机进行配置，分别对单卷随机读写、顺序写、混合读写以及全系统随机读写的IO、带宽、时延等指标进行了360无死角测试，达到了通信用户提出的单卷、系统性能不低于4万和12万IOPS、时延小于3ms的要求，产品成熟度得到了验证。

以通信行业为例，2020年全国移动互联网接入流量1656亿GB，相当于中国14亿人每人消耗118GB数据；其中春节期间，移动互联网更是创下7天消耗36亿GB数据流量的记录，还“捎带”打了548亿分钟电话、发送212亿条短信……海量实时数据洪流，在网络云资源池(NFV)支撑下收放自如，其中分布式存储平台发挥了作用。如此样板工程，其巨大示范及拉动作用不言而喻。

千万级数据存储需要多大

与千万级数据存储需要多大相关的内容