① ERP的核心管理思想
ERP的核心管理思想
ERP是现代管理思想的产物,它将许多先进的管理,如BPR、供应链管理、敏捷制造、精益生产、并行工程、及时生产(JIT)、全面质量管理等思想体现在ERP软件系统中,极大地扩展了管理信息系统的范围,成为崭新的现代企业的管理手段。那么ERP核心管理思想备考哪些内容呢?
(1)体现对整个供应链资源管理(SupplyChainManagement)的支持
在知识经济时代,企业仅靠自己的资源不可能有效参与市场竞争,企业间的合作联盟逐渐形成。现代企业的竞争已从单个企业之间的竞争发展为供应链之间的竞争。必须把经营过程中的有关各方如供应商、制造工厂、分销网络、客户等纳入一个紧密的供应链中,才能有效地安排企业的产、供、销活动,满足企业利用全社会的一切市场资源快速高效地进行生产经营的需求,以期进一步提高效率和在市场上获得竞争优势。
ERP可以使得企业内部的信息通行无阻,再加上供应链管理,透过网络与系统的有效结合,可以使客户与厂商间形成水平或垂直整合,真正达到全球运筹管理的模式。ERP可以与SCM系统整合,利用信息科学的最新成果,根据市场的需求对企业内部和其供应链上各环节的资源进行全面规划、统筹安排和严格控制,以保证人、财、物、信息等各类资源得到充分、合理的应用,从而达到提高生产效率、降低成本、满足顾客需求、增强企业竞争力的目的。
(2)体现精益生产、敏捷制造和并行工程的思想
ERP支持对混合型生产方式的管理,其管理思想表现在两个方面:一是“精益生产LP(LeanProction)”,即企业按大批量生产方式组织生产时,把客户、销售代理商、供应商、协作单位纳入生产体系,企业同其销售代理、客户和供应商的关系,已不再是简单的业务往来关系,而是利益共享的合作伙伴关系;二是“敏捷制造(AgileManufacturing)”,当企业遇到特定的市场和产品需求时,企业的基本合作伙伴不一定能满足新产品开发生产的要求,这时,企业会组织一个由特定的.供应商和销售渠道组成的短期或一次性供应链,形成“虚拟工厂”,把供应和协作单位看作是企业的一个组成部分,运用“并行工程”组织生产,用最短的时间将新产品打入市场,时刻保持产品的高质量、多样化和灵活性。
(3)采用计算机和网络通信技术的最新成就
ERP除了已经普遍采用的诸如图形用户界面技术(GUI)、sql结构化查询语言、关系型数据库管理系统(RDBMS)、面向对象技术(OOT)、第四代语言/计算机辅助软件工程、客户机/服务器和分布式数据处理系统等技术之外,还要实现更为开放的不同平台互操作,采用适用于网络技术的编程软件,加强了用户自定义的灵活性和可配置性功能,以适应不同行业用户的需要。网络通信技术的应用,使ERP易于扩展为供应链管理的信息集成。
(4)ERP同BPR密切相关
信息技术的发展加快了信息传递速度和实时性,为企业进行信息的实时处理、作出相应的决策提供了极其有利的条件。为了使企业的业务流程能够预见并响应环境的变化,企业的内外业务流程必须保持信息的敏捷通畅。为了提高企业供应链管理的竞争优势,必然会带来企业业务流程、信息流程和组织机构的改革。这个改革,不仅包括企业内部,还把供应链上的供需双方合作伙伴包罗进来,系统考虑整个供应链的业务流程。ERP应用程序使用的技术和操作必须能够随着企业业务流程的变化而相应地调整。BPR的应用已经从企业内部扩展到企业与需求市场和供应市场整个供应链的业务流程和组织机构重组的方向。
(5)以物流和信息流为核心在供应链上, 除了人们已经熟悉的“物流”、“资金流”、“信息流”以外,还有容易为人们所忽略的“增值流”和“工作流”。就是说,供应链上有5种基本“流”在流动。ERP的核心,由物流和信息流构成,两者再将企业本身、客户、供货商三者串联在一起。物流由供货商经企业流向客户,由供货商提供的材料,经企业本身生产完成品交给客户;信息流则由客户的订单和厂内的生产预测所引发,经企业本身产生采购单给供货商。工作流决定了各种流的流速和流量,是BPR研究的对象。ERP提供各行业行之有效的业务流程,而且还可以随着企业工作流(业务流程)的改革在应用程序的操作上作出相应的调整。
总之,ERP不仅面向供应链管理,体现BPR、精益生产、敏捷制造、同步工程的精神,而且必然要结合全面质量管理(TQM)以保证质量和客户满意度;结合准时制生产(JIT)以消除一切无效劳动与浪费、降低库存和缩短交货期;它还要结合约束理论(TOC,TheoryofConstraint,是优化生产技术OPT的发展)来定义供应链上的瓶颈环节、消除制约因素来扩大企业供应链的有效产出。
;② 浅谈计算机数据库的管理与应用论文
浅谈计算机数据库的管理与应用论文
摘要: 随着社会经济的快速发展,信息化网络技术手段不断进步,信息技术在人们日常生活、工作及学习中的广泛渗透,不仅给人们生活带来了极大便利,还极大的提升了人们工作与学习效率,为社会各领域的发展起到了巨大的推动作用。数据库是伴随着计算机信息化网络技术发展的,而其又是信息技术发展的核心所在,数据库技术的快速发展一方面在计算机技术的发展和完善上发挥举足轻重作用的同时,一方面也为社会的进步作出突出贡献。本文将就计算机数据库的管理进行详细分析,并在此基础上阐述计算机数据库的应用情况。
关键词: 计算机数据库;管理应用
21世纪是信息大爆炸的时代,伴随着信息化技术的快速发展及在社会生活等各领域的广泛渗透,人们的生活观念及方式都发生了很大的变化,尤其是计算机核心技术之一的数据库技术的发展及应用,不仅使人们生活更加轻松便捷,数据库技术在人们工作学习中的应用,还极大的提升了人们的工作与学习效率,为社会的发展进步起到了巨大的推动作用。计算机数据库的主要定义是其是为了达成相关目标而组织在一起并存储在计算机中的一系列数据。而数据库技术则是指研究数据库的相关管理、设计及结构的一系列方法与手段,以达到对数据的有效分析及处理等,这些方法和手段可以是相关理论知识及技术等。计算机数据库的主要特征有数据库中所有数据信息都存在一定的相互间的联系,同时各数据信息间有保持一定的相对独立性,此外,数据库采用DBMS来对数据进行控制及管理。数据库技术主要经过以下三个发展历程数据的手动管理时段、通过采用文件系统对数据进行管理时段以及数据库形成系统时段,每个阶段数据库技术的特点都不同,有着鲜明的时代特征。下文将就计算机数据库的管理进行详细分析,并在此基础上阐述计算机数据库的应用情况。
一、计算机数据库的管理
计算机数据库的管理主要有以下几种管理技术。
1.存取管理技术
数据库的存取管理技术主要有包括以下技术:一是用户认证技术。对于计算机网络来说,用户的一切信息资料都是采用一系列且具有一定组合的数据来表达,因而用户只存在数据身份而不存在其现实身份,相应的在相关授权方面,计算机网络也是对用户实行数据身份形式的授权模式。该技术可以采用用户设置的相关密码及口令来实施计算机对用户的鉴别,此外,当前还有一种采用生物特征的方式来对用户进行鉴别。用户认证技术能够有效的防止没有经过认证授权的用户,访问、使用及修改数据库的权限;二是控制访问技术。该技术主要是对用户的一些权力进行一定限制,既可以限制骇客非法入侵数据库及访问相关资源,又能够对合法用户的某些权力进行限制,如不允许其访问受保护的文件及访问目录等资源。该技术对主客体的访问权限作了相关规定和限制,对用户的相关访问要求作出相应控制,其中主体主要指的是用户,客体指的是文件等数据库资源。在控制策略方面主要有防火墙控制、权限控制等。
2.恢复和备份技术
由于当前计算机网络情况十分复杂,计算机数据库的安全受到多方面因素的干扰和影响,因此当计算机数据库因某种原因出现故障时,事先做好对数据库信息资源的备份并对其进行恢复就显得尤为必要。系统一旦出现故障,其数据库信息资源便会受到一定破坏甚至丢失,当前应对数据丢失问题的主要对策有对数据进行备份,经过备份的数据信息能够非常简便的对其进行恢复。当前的数据库备份手段包括动态、静态及逻辑备份等。而数据库的恢复手段则包括数据库备份及通过在线日志来进行恢复等。用户应根据计算机系统故障原因及自身情况选择最优的数据库备份和恢复手段,以减少或避免因数据丢失造成的巨大损害。
3.加密技术
随着信息化网络技术在人们日常生活工作中的广泛应用,其在为人们创造巨大效益的同时,也无形中加大对其依赖性,这也导致网络信息安全问题的'不断发生,木马、病毒等危害计算机安全的情况越来越普遍。尤其是当前人们将大量重要的数据信息存储于计算机数据库中,部分人出于各种目的,抓住用户网络安全意识薄弱及网络技术缺乏的弱点,通过计算机漏洞采用非法手段入侵用户计算机系统,通过盗取用户密码的方式,非法访问用户数据信息并对其进行篡改,极大的威胁到了用户的数据信息安全。而通过采用数据加密技术则能有效的避免这些情况的发生,对数据库中的重要信息实施加密,不仅能有效杜绝骇客入侵,还能在系统因某种原因崩溃时,相关数据信息依然不受影响,从而实现数据信息的安全[1]。
二、计算机数据库的应用情况
1.多媒体中的广泛应用
计算机数据库在多媒体领域的广泛运用主要指的是将多媒体的数字化相关技术及数据压缩等技术与数据库技术整合起来,实现数据库技术在多媒体领域的广泛应用。多媒体数据库技术就是在数据库技术不断发展和应用过程中出现,其主要应用领域有图书馆、博物馆及电子商务中。该技术通过将声像等数据信息有机整合起来,形成巨大的多媒体信息资源数据库,从而极大的提高了传统多媒体信息资源的容量,进而能高效的进行多媒体信息资源的大量演示。数据库技术在多媒体领域的广泛应用,不仅多媒体领域的技术水平及服务质量,还为多媒体领域创造了巨大的经济效益,为社会的健康可持续发展提供巨大推动力。
2.信息管理中的广泛应用
随着计算机数据库技术的不断发展,其在信息资源管理中的应用也越来越广泛,并取得了良好效果,数据库技术不仅提升了信息资源的容量,还极大的保障了信息资源的安全及稳定性,提升了用户信息管理水平。当前数据库按照应用领域不同可分为统计数据库、生态环境数据库及海河流域数据库等;按照传统模式分类,则可分为网状、关系及层次型三种模式。数据库技术在信息资源管理中运用,其主要特点有以下几方面:一是运用领域的拓展。以往的信息管理只包括单一农业或工业,现今数据库技术在信息资源管理中的运用后,其管理范围拓展到能涵盖工、农及服务业,这极大的提升了工作效率,促进了生产力的发展;二是数据库技术的巨大进步,使得其在信息资源管理中的应用更加具有可操作性,应用范围更广泛,运用效果更加良好;三是数据库的安全性得到极大提高。数据库的加密技术极大的提升了信息资源的安全性,通过采用用户账号及加密等手段,能够有效对信息资源进行管理,在提升信息管理效率的同时,也能极大的减少甚至避免数据信息风险,从而实现信息管理的安全稳定[2]。
3.在文献管理中的广泛应用
其主要可用于以下几方面:一是数据库技术可有效的运用与文献档案的检索和存储中。可以通过将文献资源录入光盘的形式,实现大量资源的有效存储,而且其还具备成本低廉、安全可靠及容量巨大、携带方便等特点。如其还可以用于教育教学中,如将大量的教学素材及资源通过压缩成光盘的形式,这可以极大的提升教学工作的效率;二是用于计算机C语言文献资源的检索及浏览。可以通过建立计算机C语言的相关理论知识及文献研究资料的数据库信息系统,对其数据信息进行细致分类,引进先进的检索系统,这有助于教师的教学和科研活动的顺利开展。如教师可以根据数据库检索有用资源进行教学设计,这能极大的提升教学的效果。此外,还可以根据数据库的信息资源开展科研活动[3]。
三、结语
计算机数据库技术的发展和应用,不仅能给人们工作、学习及生活带来极大效益,还能创造巨大的社会经济效率,为社会的发展进步起到巨大推动作用。因此,加强对计算机数据库管理与应用的研究有着积极意义。
参考文献
[1]曾令思.计算机数据库的管理与应用[J].电子制作,2014,(06):58-59.
[2]陆根美.浅谈计算机数据库的管理技术及其应用[J].电子世界,2014,(10):335-336.
[3]江绍虎,潘澜月.浅谈计算机数据库的应用与管理[J].科技资讯,2012,(19):25-26.
;③ 为什么数据库对其管理的数据要进行结构化的描述和定义
数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引越来越多的研究者加入。数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。三十多年来,国内外已经开发建设了成千上万个数据库,它已成为企业、部门乃至个人日常工作、生产和生活的基础设施。同时,随着应用的扩展与深入,数据库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。30年间数据库领域获得了三次计算机图灵奖(C.W. Bachman, E.F.Codd, J.Gray),更加充分地说明了数据库是一个充满活力和创新精神的领域。就让我们沿着历史的轨迹,追溯一下数据库的发展历程。
一. 数据库发展简史
1. 数据管理的诞生
数据库的历史可以追溯到五十年前,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。
然而,1951年雷明顿兰德公司(Remington Rand Inc)的一种叫做Univac I的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1956年IBM生产出第一个磁盘驱动器——the Model 305 RAMAC。此驱动器有50个盘片,每个盘片直径是2英尺,可以储存5MB的数据。使用磁盘最大的好处是可以随机地存取数据,而穿孔卡片和磁带只能顺序存取数据。
1951: Univac系统使用磁带和穿孔卡片作为数据存储。
数据库系统的萌芽出现于60年代。当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。传统的文件系统已经不能满足人们的需要。能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。数据模型是数据库系统的核心和基础,各种DBMS软件都是基于某种数据模型的。所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。
最早出现的是网状DBMS,是美国通用电气公司Bachman等人在1961年开发成功的IDS(Integrated DataStore)。1961年通用电气公司(General Electric Co.)的Charles Bachman成功地开发出世界上第一个网状DBMS也是第一个数据库管理系统——集成数据存储(Integrated DataStore IDS),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。IDS具有数据模式和日志的特征。但它只能在GE主机上运行,并且数据库只有一个文件,数据库所有的表必须通过手工编码来生成。
之后,通用电气公司的一个客户——BF Goodrich Chemical公司最终不得不重写了整个系统。并将重写后的系统命名为集成数据管理系统(IDMS)。
网状数据库模型对于层次和非层次结构的事物都能比较自然的模拟,在关系数据库出现之前网状DBMS要比层次DBMS用得普遍。在数据库发展史上,网状数据库占有重要地位。
层次型DBMS是紧随网络型数据库而出现的。最着名最典型的层次数据库系统是IBM公司在1968年开发的IMS(Information Management System),一种适合其主机的层次数据库。这是IBM公司研制的最早的大型数据库系统程序产品。从60年代末产生起,如今已经发展到IMSV6,提供群集、N路数据共享、消息队列共享等先进特性的支持。这个具有30年历史的数据库产品在如今的WWW应用连接、商务智能应用中扮演着新的角色。
1973年Cullinane公司(也就是后来的Cullinet软件公司),开始出售Goodrich公司的IDMS改进版本,并且逐渐成为当时世界上最大的软件公司。
2. 关系数据库的由来
网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独立性和抽象级别上仍有很大欠缺。用户在对这两种数据库进行存取时,仍然需要明确数据的存储结构,指出存取路径。而后来出现的关系数据库较好地解决了这些问题。
1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,奠定了关系模型的理论基础。尽管之前在1968年Childs已经提出了面向集合的模型,然而这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。Codd的心愿是为数据库建立一个优美的数据模型。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。关系模型有严格的数学基础,抽象级别比较高,而且简单清晰,便于理解和使用。但是当时也有人认为关系模型是理想化的数据模型,用来实现DBMS是不现实的,尤其担心关系数据库的性能难以接受,更有人视其为当时正在进行中的网状数据库规范化工作的严重威胁。为了促进对问题的理解,1974年ACM牵头组织了一次研讨会,会上开展了一场分别以Codd和Bachman为首的支持和反对关系数据库两派之间的辩论。这次着名的辩论推动了关系数据库的发展,使其最终成为现代数据库产品的主流。
1969: Edgar F。“Ted” Codd发明了关系数据库
1970年关系模型建立之后,IBM公司在San Jose实验室增加了更多的研究人员研究这个项目,这个项目就是着名的System R。其目标是论证一个全功能关系DBMS的可行性。该项目结束于1979年,完成了第一个实现SQL的DBMS。然而IBM对IMS的承诺阻止了System R的投产,一直到1980年System R才作为一个产品正式推向市场。IBM产品化步伐缓慢的三个原因:IBM重视信誉,重视质量,尽量减少故障;IBM是个大公司,官僚体系庞大;IBM内部已经有层次数据库产品,相关人员不积极,甚至反对。
然而同时,1973年加州大学伯克利分校的Michael Stonebraker和Eugene Wong利用System R已发布的信息开始开发自己的关系数据库系统Ingres。他们开发的Ingres项目最后由Oracle公司、Ingres公司以及硅谷的其他厂商所商品化。后来,System R和Ingres系统双双获得ACM的1988年“软件系统奖”。
1976年霍尼韦尔公司(Honeywell)开发了第一个商用关系数据库系统——Multics Relational Data Store。关系型数据库系统以关系代数为坚实的理论基础,经过几十年的发展和实际应用,技术越来越成熟和完善。其代表产品有Oracle、IBM公司的DB2、微软公司的MS SQL Server以及Informix、ADABASD等等。
3. 结构化查询语言 (SQL)
1974年,IBM的Ray Boyce和Don Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL(Structured Query Language)语言。SQL语言的功能包括查询、操纵、定义和控制,是一个综合的、通用的关系数据库语言,同时又是一种高度非过程化的语言,只要求用户指出做什么而不需要指出怎么做。SQL集成实现了数据库生命周期中的全部操作。SQL提供了与关系数据库进行交互的方法,它可以与标准的编程语言一起工作。自产生之日起,SQL语言便成了检验关系数据库的试金石,而SQL语言标准的每一次变更都指导着关系数据库产品的发展方向。然而,直到二十世纪七十年代中期,关系理论才通过SQL在商业数据库Oracle和DB2中使用。
1986年,ANSI把SQL作为关系数据库语言的美国标准,同年公布了标准SQL文本。目前SQL标准有3个版本。基本SQL定义是ANSIX3135-89,“Database Language - SQL with Integrity Enhancement”[ANS89],一般叫做SQL-89。SQL-89定义了模式定义、数据操作和事务处理。SQL-89和随后的ANSIX3168-1989,“Database Language-Embedded SQL”构成了第一代SQL标准。ANSIX3135-1992[ANS92]描述了一种增强功能的SQL,现在叫做SQL-92标准。SQL-92包括模式操作,动态创建和SQL语句动态执行、网络环境支持等增强特性。在完成SQL-92标准后,ANSI和ISO即开始合作开发SQL3标准。SQL3的主要特点在于抽象数据类型的支持,为新一代对象关系数据库提供了标准。
4. 面向对象数据库
随着信息技术和市场的发展,人们发现关系型数据库系统虽然技术很成熟,但其局限性也是显而易见的:它能很好地处理所谓的“表格型数据”,却对技术界出现的越来越多的复杂类型的数据无能为力。九十年代以后,技术界一直在研究和寻求新型数据库系统。但在什么是新型数据库系统的发展方向的问题上,产业界一度是相当困惑的。受当时技术风潮的影响,在相当一段时间内,人们把大量的精力花在研究“面向对象的数据库系统(object oriented database)”或简称“OO数据库系统”。值得一提的是,美国Stonebraker教授提出的面向对象的关系型数据库理论曾一度受到产业界的青睐。而Stonebraker本人也在当时被Informix花大价钱聘为技术总负责人。
然而,数年的发展表明,面向对象的关系型数据库系统产品的市场发展的情况并不理想。理论上的完美性并没有带来市场的热烈反应。其不成功的主要原因在于,这种数据库产品的主要设计思想是企图用新型数据库系统来取代现有的数据库系统。这对许多已经运用数据库系统多年并积累了大量工作数据的客户,尤其是大客户来说,是无法承受新旧数据间的转换而带来的巨大工作量及巨额开支的。另外,面向对象的关系型数据库系统使查询语言变得极其复杂,从而使得无论是数据库的开发商家还是应用客户都视其复杂的应用技术为畏途。
5. 数据管理的变革
二十世纪六十年代后期出现了一种新型数据库软件:决定支持系统(DSS),其目的是让管理者在决策过程中更有效地利用数据信息。于是在1970年,第一个联机分析处理工具——Express诞生了。其他决策支持系统紧随其后,许多是由公司的IT部门开发出来的。
1985年,第一个商务智能系统(business intelligence)由Metaphor计算机系统有限公司为Procter & Gamble公司开发出来,主要是用来连接销售信息和零售的扫描仪数据。同年, Pilot 软件公司开始出售第一个商用客户/服务器执行信息系统——Command Center。
同样在这年,加州大学伯克利分校Ingres项目演变成Postgres,其目标是开发出一个面向对象的数据库。此后一年, Graphael公司开发了第一个商用的对象数据库系统—Gbase。
1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语—信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H. "Bill" Inmon出版了一本“如何构建数据仓库”的书,使得数据仓库真正开始应用。
1991: W.H.“Bill” Inmon发表了”构建数据仓库”
二十世纪九十年代,随着基于PC的客户/服务器计算模式和企业软件包的广泛采用,数据管理的变革基本完成。数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。Internet的异军突起以及XML语言的出现,给数据库系统的发展开辟了一片新的天地。
5. 数据库发展大事记
1951:Univac系统使用磁带和穿孔卡片作为数据存储。
1956:IBM公司在其Model 305 RAMAC中第一次引入了磁盘驱动器
1961:通用电气(GE)公司的Charles Bachman开发了第一个数据库管理系统——IDS
1969:E.F. Codd发明了关系数据库。
1973: 由John J.Cullinane领导Cullinane公司开发了 IDMS——一个针对IBM主机的基于网络模型的数据库。
1976: Honeywell公司推出了Multics Relational Data Store——第一个商用关系数据库产品。
1979: Oracle公司引入了第一个商用SQL关系数据库管理系统。
1983: IBM 推出了DB2数据库产品。
1985: 为Procter & Gamble系统设计的第一个商务智能系统产生。
1991: W.H.“Bill” Inmon发表了”构建数据仓库”。
④ 数据管理在文件系统和数据库系统阶段各有那些特性,数据库系统的实现目标时如何制
数据库管理系统(database management system)是一种操纵和管理数据库的大型软件,是用于建立、使用和维护数据库,简称dbms。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过dbms访问数据库中的数据,数据库管理员也通过dbms进行数据库的维护工作。它提供多种功能,可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库。它使用户能方便地定义和操纵数据,维护数据的安全性和完整性,以及进行多用户下的并发控制和恢复数据库。
按功能划分,数据库管理系统大致可分为6个部分:
(1)模式翻译:提供数据定义语言(ddl)。用它书写的数据库模式被翻译为内部表示。数据库的逻辑结构、完整性约束和物理储存结构保存在内部的数据字典中。数据库的各种数据操作(如查找、修改、插入和删除等)和数据库的维护管理都是以数据库模式为依据的。
(2)应用程序的编译:把包含着访问数据库语句的应用程序,编译成在dbms支持下可运行的目标程序。
(3)交互式查询:提供易使用的交互式查询语言,如sql。dbms负责执行查询命令,并将查询结果显示在屏幕上。
(4)数据的组织与存取:提供数据在外围储存设备上的物理组织与存取方法。
⑸事务运行管理:提供事务运行管理及运行日志,事务运行的安全性监控和数据完整性检查,事务的并发控制及系统恢复等功能。
(6)数据库的维护:为数据库管理员提供软件支持,包括数据安全控制、完整性保障、数据库备份、数据库重组以及性能监控等维护工具。
基于关系模型的数据库管理系统已日臻完善,并已作为商品化软件广泛应用于各行各业。它在各户服务器结构的分布式多用户环境中的应用,使数据库系统的应用进一步扩展。随着新型数据模型及数据管理的实现技术的推进,可以预期dbms软件的性能还将更新和完善,应用领域也将进一步地拓宽。
它所提供的功能有以下几项:
(1)数据定义功能。DBMS提供相应数据语言来定义(DDL)数据库结构,它们是刻画数据库框架,并被保存在数据字典中。
(2)数据存取功能。DBMS提供数据操纵语言(DML),实现对数据库数据的基本存取操作:检索,插入,修改和删除。
(3)数据库运行管理功能。DBMS提供数据控制功能,即是数据的安全性、完整性和并发控制等对数据库运行进行有效地控制和管理,以确保数据正确有效。
(4)数据库的建立和维护功能。包括数据库初始数据的装入,数据库的转储、恢复、重组织,系统性能监视、分析等功能。
(5)数据库的传输。DBMS提供处理数据的传输,实现用户程序与DBMS之间的通信,通常与操作系统协调完成。
着名数据库管理系统
MS SQL
SYBASE
DB2
ORACLE
MySQL
ACCESS
VF
常见的数据库管理系统
目前有许多数据库产品,如Oracle、Sybase、Informix、Microsoft SQL Server、Microsoft Access、Visual FoxPro等产品各以自己特有的功能,在数据库市场上占有一席之地。下面简要介绍几种常用的数据库管理系统。
Oracle
Oracle是一个最早商品化的关系型数据库管理系统,也是应用广泛、功能强大的数据库管理系统。Oracle作为一个通用的数据库管理系统,不仅具有完整的数据管理功能,还是一个分布式数据库系统,支持各种分布式功能,特别是支持Internet应用。作为一个应用开发环境,Oracle提供了一套界面友好、功能齐全的数据库开发工具。Oracle使用PL/SQL语言执行各种操作,具有可开放性、可移植性、可伸缩性等功能。特别是在Oracle 8i中,支持面向对象的功能,如支持类、方法、属性等,使得Oracle 产品成为一种对象/关系型数据库管理系统。
Microsoft SQL Server
Microsoft SQL Server是一种典型的关系型数据库管理系统,可以在许多操作系统上运行,它使用Transact-SQL语言完成数据操作。由于Microsoft SQL Server是开放式的系统,其它系统可以与它进行完好的交互操作。目前最新版本的产品为Microsoft SQL Server 2000,它具有可靠性、可伸缩性、可用性、可管理性等特点,为用户提供完整的数据库解决方案。
Microsoft Office
作为Microsoft Office组件之一的Microsoft Access是在Windows环境下非常流行的桌面型数据库管理系统。使用Microsoft Access无需编写任何代码,只需通过直观的可视化操作就可以完成大部分数据管理任务。在Microsoft Access数据库中,包括许多组成数据库的基本要素。这些要素是存储信息的表、显示人机交互界面的窗体、有效检索数据的查询、信息输出载体的报表、提高应用效率的宏、功能强大的模块工具等。它不仅可以通过ODBC与其它数据库相连,实现数据交换和共享,还可以与Word、Excel等办公软件进行数据交换和共享,并且通过对象链接与嵌入技术在数据库中嵌入和链接声音、图像等多媒体数据。
数据库管理系统选择原则
选择数据库管理系统时应从以下几个方面予以考虑:
(1) 构造数据库的难易程度。
需要分析数据库管理系统有没有范式的要求,即是否必须按照系统所规定的数据模型分析现实世界,建立相应的模型;数据库管理语句是否符合国际标准,符合国际标准则便于系统的维护、开发、移植;有没有面向用户的易用的开发工具;所支持的数据库容量,数据库的容量特性决定了数据库管理系统的使用范围。
(2) 程序开发的难易程度。
有无计算机辅助软件工程工具CASE——计算机辅助软件工程工具可以帮助开发者根据软件工程的方法提供各开发阶段的维护、编码环境,便于复杂软件的开发、维护。有无第四代语言的开发平台——第四代语言具有非过程语言的设计方法,用户不需编写复杂的过程性代码,易学、易懂、易维护。有无面向对象的设计平台——面向对象的设计思想十分接近人类的逻辑思维方式,便于开发和维护。对多媒体数据类型的支持——多媒体数据需求是今后发展的趋势,支持多媒体数据类型的数据库管理系统必将减少应用程序的开发和维护工作。
(3) 数据库管理系统的性能分析。
包括性能评估(响应时间、数据单位时间吞吐量)、性能监控(内外存使用情况、系统输入/输出速率、SQL语句的执行,数据库元组控制)、性能管理(参数设定与调整)。
(4) 对分布式应用的支持。
包括数据透明与网络透明程度。数据透明是指用户在应用中不需指出数据在网络中的什么节点上,数据库管理系统可以自动搜索网络,提取所需数据;网络透明是指用户在应用中无需指出网络所采用的协议。数据库管理系统自动将数据包转换成相应的协议数据。
(5) 并行处理能力。
支持多CPU模式的系统(SMP,CLUSTER,MPP),负载的分配形式,并行处理的颗粒度、范围。
(6) 可移植性和可括展性。
可移植性指垂直扩展和水平扩展能力。垂直扩展要求新平台能够支持低版本的平台,数据库客户机/服务器机制支持集中式管理模式,这样保证用户以前的投资和系统;水平扩展要求满足硬件上的扩展,支持从单CPU模式转换成多CPU并行机模式( SMP, CLUSTER, MPP)
(7) 数据完整性约束。
数据完整性指数据的正确性和一致性保护,包括实体完整性、参照完整性、复杂的事务规则。
(8) 并发控制功能。
对于分布式数据库管理系统,并发控制功能是必不可少的。因为它面临的是多任务分布环境,可能会有多个用户点在同一时刻对同一数据进行读或写操作,为了保证数据的一致性,需要由数据库管理系统的并发控制功能来完成。评价并发控制的标准应从下面几方面加以考虑:
保证查询结果一致性方法
数据锁的颗粒度(数据锁的控制范围,表、页、元组等)
数据锁的升级管理功能
死锁的检测和解决方法
(9) 容错能力。
异常情况下对数据的容错处理。评价标准:硬件的容错,有无磁盘镜象处理功能软件的容错,有无软件方法异常情况的容错功能
(10) 安全性控制
包括安全保密的程度(帐户管理、用户权限、网络安全控制、数据约束)
(11) 支持汉字处理能力
包括数据库描述语言的汉字处理能力(表名、域名、数据)和数据库开发工具对汉字的支持能力。
⑤ 简述数据库和数据库管理系统及其区别
数据库管理系统是位于操作系统和数据库应用系统之间的数据库管理软件。
数据库系统是指在计算机系统中引入数据库后的系统,包含数据库、数据库管理系统(及开发工具)、应用系统、数据库管理员组成。
即数据库系统包含数据库管理系统和数据库。
简述数据库就是简单的数字、字符等用来表示计量的单位,并没有什么实际的含义。而信息是由数据构成的,它可以通过数据进行传递,表达一定的意愿。
⑥ 主动数据库系统的结构和设计思想是什么
1.3. 数据库系统结构
从数据库管理系统的角度看,数据库系统通常采用三级模式结构。本节将介绍数据库系统的模式结构。
1.3.1. 模式的概念
模式(schema)是数据库中全体数据的逻辑结构和特征的描述,它仅仅涉及到类型的描述,而不涉及到具体的值。模式的一个具体值称为模式的一个实例(instance)。同一个模式可以有很多实例。模式是相对稳定的,实例是相对变动的,因为数据库中的数据总在不断地更新。模式反映的是数据的结构及其联系,而实例反映的是数据库某一时刻的状态。
1.3.2. 三级模式结构
数据库系统的三级模式结构是指数据库系统是由外模式、模式、内模式,这三级构成的。如图 1.4所示
图 1.4. 数据库系统的三级模式结构
模式(schema)
模式也称为逻辑模式,它是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。它是数据库系统模式结构的中间层,既不涉及数据的物理存储细节和硬件环境,也与具体的应用程序,与所使用的应用程序开发工具以及程序设计语言无关。
DBMS提供模式描述语言(模式DDL)来严格地定义模式。
外模式(external schema)
模式也称为用户模式或子模式,它是数据库用户(包括程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一特定应用有关的数据的逻辑表示。
外模式通常是模式的子集。一个数据库中可以有多个外模式。外模式是保证数据库安全性的一个有力措施,每个用户只能看见和访问到相应的外模式的数据,他看不见数据库中的其余数据。
DBMS提供外模式描述语言(外模式DDL)来严格地定义外模式。
内模式(internal schema)
模式也称为存储模式,一个数据库只能有一个内模式。它是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。
DBMS提供内模式描述语言(内模式DDL)来严格地定义内模式。
1.3.3. 两级映像与数据独立性
数据库系统的三级模式是对数据的三个抽象级别,它把数据的具体组织工作留给了DBMS管理,使用户能够从逻辑层面上处理数据,而不必关心数据在计算机中的具体表示方式和存储方式。为了能够在内部实现这三个抽象层次的联系和转换,DBMS在这个三级模式之间提供了两级映像:
外模式/模式映像
模式/内模式映像
正是这两级映像保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。
外模式/模式映像
模式描述的是数据的全局逻辑结构,外模式描述的是数据的局部逻辑结构。对应于同一个模式可以有任意多个外模式。对于每一个外模式,数据库系统都有一个外模式/模式的映像,它定义了该外模式与模式之间的对应关系。
当模式改变时,由数据库管理员对各个外模式/模式映像做相应的改变,就可以使外模式保持不变。应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称为数据的逻辑独立性。
模式/内模式映像
数据库中只有一个模式,也只有一个内模式,所以模式/内模式的映像是唯一的。它定义了数据库全局逻辑结构与物理存储结构之间的对应关系。
当数据库的物理存储结构改变时,由数据库管理员对模式/内模式映像做相应的改变,就可以使模式保持不变。从而应用程序也不必改变。这样就保证了程序与数据的物理独立性,简称为数据的物理独立性。
在数据库的三级模式结构中,数据库模式,即全局逻辑模式是数据库的中心与关键,它独立于数据库的其他层次。因此,设计数据库模式结构时,应首先确定数据库的逻辑模式。
⑦ ERP软件系统体现了哪些管理思想
1、体现对整个供应链资源进行管理的思想
在知识经济时代仅靠自己企业的资源不可能有效地参与市场竞争, 还必须把经营过程中的有关各方如供应 商、制造工厂、分销网络、客户等纳入一个紧密的供应链中 ,才能有效地安排企业的产、供、销活动,满足企业 利用全社会一切市场资源快速高效地进行生产经营的需求 ,以期进一步提高效率和在市场上获得竞争优势。
2、体现精益生产、同步工程和敏捷制造的思想
ERP系统支持对混合型生产方式的管理,其管理思想表现在两个方 面:其一是“精益生产LP (Lean Proction)”的思想,它是由美国麻省理工 学院(MIT)提出的一种企业经营战略体系 。其二是“敏捷制造(Agile Manufacturing)”的思想。
3、体现事先计划与事中控制的思想
ERP系统中的计划体系主要包括:主生产计划、物料需求计划、能力计划、 采购计划、销售执行计划、利润计划、财务预算和人力资源计划等,而且这些计划功能与价值控制功能已完全集成到整个供应链系统中。
另一方面,ERP系统通过定义事务处理(Transaction)相关的会计核算科目与核算方式,以便在事务处理发生 的同时自动生成会计核算分录, 保证了资金流与物流的同步记录和数据的一致性。
从而实现了根据财务资金现 状,可以追溯资金的来龙去脉, 并进一步追溯所发生的相关业务活动,改变了资金信息滞后于物料信息的状况, 便于实现事中控制和实时做出决策。
(7)用数据库表达管理思想扩展阅读
ERP软件系统综合应用了客户机/服务器体系、关系数据库结构、面向对象技术、图形用户界面、第四代语言(4GL)、网络通讯等信息产业成果,以ERP管理思想为灵魂的软件产品。
ERP软件系统整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软件于一体的企业资源管理系统。
综合来讲,ERP软件系统以ERP管理思想为核心,以ERP软件为平台的现代企业管理系统。
ERP系统主要包括以下内容:销售管理、采购管理、库存管理、制造标准、主生产计划、物料需求计划、能力需求计划、车间管理、及时生产管理、质量管理、财务管理、成本管理、应收账管理、应付账管理、现金管理、固定资产管理、工资管理、人力资源管理、分销资源管理、设备管理、工作流管理、系统管理。
⑧ 漫谈大数据的思想形成与价值维度
漫谈大数据的思想形成与价值维度
清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。各位有问题,我可以择时择机插入讨论。
先说大数据思想的形成吧。自从人类开始文字和数字,数据就开始产生。就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobodywantstobenobodytoday。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的作用。
以上是小编为大家分享的关于漫谈大数据的思想形成与价值维度的相关内容,更多信息可以关注环球青藤分享更多干货
⑨ 详解大数据的思想如何形成与其价值维度
详解大数据的思想如何形成与其价值维度
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。
⑩ 什么是数据库管理系统它的主要功能是什么
数据库管理系统是一种操纵和管理数据库的大型软件。是一个能够提供数据录入、修改、查询的数据操作软件。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。主要功能是:
1、数据定义:提供数据定义语言DDL,供用户定义数据库的三级模式结构、两级映像以及完整性约束和保密限制等约束。DDL所描述的库结构仅仅给出了数据库的框架,数据库的框架信息被存放在数据字典中。
2、数据操作:提供数据操作语言DML,供用户实现对数据的追加、删除、更新、查询等操作。
3、数据库的运行管理:数据库的运行管理功能是DBMS的运行控制、管理功能,包括多用户环境下的并发控制、安全性检查和存取限制控制、完整性检查和执行、运行日志的组织管理、事务的管理和自动恢复,即保证事务的原子性。
4、数据组织、存储与管理:DBMS要分类组织、存储和管理各种数据,包括数据字典、用户数据、存取路径等,需确定以何种文件结构和存取方式在存储级上组织这些数据,如何实现数据之间的联系。
5、数据库的保护:保护通过4个方面来实现:数据库的恢复、数据库的并发控制、数据库的完整性控制、数据库安全性控制。DBMS的其他保护功能还有系统缓冲区的管理以及数据存储的某些自适应调节机制等。
6、数据库的维护:这一部分包括数据库的数据载入、转换、转储、数据库的重组合重构以及性能监控等功能,这些功能分别由各个使用程序来完成。
7、通信:具有与操作系统的联机处理、分时系统及远程作业输入的相关接口,负责处理数据的传送。
(10)用数据库表达管理思想扩展阅读:
数据库管理系统的优点
1、控制数据冗余。数据库管理应尽可能地消除了冗余,但是并没有完全消除,而是控制大量数据库固有的冗余。
2、保证数据一致性。通过消除或控制冗余,可降低不一致性产生的危险。如果数据项在数据库中只存储了一次,则任何对该值的更新均只需进行一次,而且新的值立即就被所有用户获得。
3、提高数据共享。数据库应该被有权限的用户共享。DBMS的引入使更多的用户可以更方便的共享更多的数据。新的应用程序可以依赖于数据库中已经存在的数据,并且只增加目前没有存储的数据,而不用重新定义所有的数据需求。