A. 求一些"数据仓库和数据挖掘"的案例
与商业智能相关的词汇有例如数据仓库,数据装载(ETL),数据挖掘(Data Mining), 客户关系管理(CRM),SAS,PeopleSoft, SAP等。理清他们之间的关系才能准确制订个人职业发展规划。
到上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库的应用已经非常普及,大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储,在更新,删除,有效存储(少冗余数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,出现了数据仓库(Data Warehouse)。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(称为主题)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。
在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。其中组织整理数据占据大部分时间,大约占到整个数据挖掘项目80%的时间。
数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。
数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据(Basket data)分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。如果你访问着名的亚马逊网上书店(www.amazon.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book also bought”,这背后就是数据挖掘技术在发挥作用。
数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换,在此基础上再进行深入挖掘就是顺理成章的事情。数据挖掘渗透到某些行业,产生了一些特定的应用,比如现在经常会听到的客户关系管理(Customer Relationship Management, CRM)。客户关系管理的概念由来已久,但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息,发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式(通话时间,时段,通话量等),制订不同的计费方案,满足用户的同时也提高自己的利润。同其它应用一样,客户关系管理发展到一定阶段,会出现相应的系统供应商。据2003年1月的一项调查,CRM市场的领先者从高到低依次为PeopleSoft, Seibel, Oracle, SAP. 微软公司也将加入CRM市场。
从上可以看出,商业智能的应用领域非常广泛。它通常以数据仓库为基础,以数据挖掘为核心,演变出类似CRM这样的应用。一个商业智能系统的开发涉及到很多知识和技能,能够从事商业智能系统开发,那当然是最好不过的。如果没有这样的机会,对于想进入商业智能领域的朋友,应该如何规划自己的职业发展?
首先,根据自己想从事的应用领域,比照该行业商业智能应用所需的知识和经验,找出自己的长处和不足。比如已经有零售业,医药业,制造业的工作经验,或熟悉数据库,编程,人工智能,统计学等。然后补充自己的不足。通过与该领域有经验人士交流,查阅资料,自学或参加相关培训或选修大学课程都是弥补自己不足的手段。当你对将要从事的工作心中有数后,可以开始尝试申请入门级职位。不要编造经历,但要展示你对所申请职位所具备的相关经验(如 business方面的)和知识(会用到的技术,名词,清晰的概念)。在得到入门级职位后,要留心更高级职位用到的技术,软件等。然后利用业余时间继续补充相关知识。一旦内部有更高级职位的空缺,你又能够展示你具备的相关知识,就具有很强的竞争里,因为一般情况下公司都会愿意给内部职员一个尝试的机会的。
如果既没有business背景,又没有数据挖掘方面经验,该如何寻求突破呢?下面的例子不是唯一的道路,有心的朋友应该能得到启发。
一般正规的呼叫中心(这里指呼出服务)的工作方式是这样的:每天分析员根据现阶段的任务,从大量客户数据中筛选出响应可能性高的客户名单,交给业务代表;业务代表根据下达的客户名单做电话推销,对每个电话的结果做相应记录;根据客户实际响应情况,分析员调整筛选算法,选出第二天的客户名单;分析客户响应或不响应的原因。这就是一个典型的客户关系管理在呼叫中心应用的例子。
取得一个呼叫中心客户代表的职位并不难。难的是有没有看到做客户代表除每小时11,12元工资外潜在的价值。通过做客户代表,应该对该中心使用的客户关系管理系统有了应用经验,通过与主管或分析员的交流,应该了解交到你手里的客户名单是怎么分析出来的。心中有数后,就是等待时机的出现了。一个客户筛选算法的改进建议,一个内部分析员职位的空缺,就是展示自己商业智能方面能力的机会。这时的你,已经具备了其他应聘者所不具备的优势:有相关工作背景知识,熟悉应用环境和内部主管,提前知道空缺消息…
规划个人职业发展的时候,在众多考虑因素中有两个是非常重要的:所要投入的技术所处的发展阶段和能否结合已有专业知识。
一种技术从提出到广泛应用(或失败被抛弃)有一定的发展周期,称为科学技术的生命周期(Technological life cycle)。该周期大致分为创新(Innovators),早期成长(Early adopters),分歧点(Chasm),早期流行(Early majority),晚期流行(Late majority)和衰退阶段(Laggards)。对于应用型技术人员来说,早期流行阶段是进入一个新技术领域的最佳时机,因为该技术已经通过分歧点的考验,又处于上升阶段,风险最小,竞争最少,更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。
数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。
我们正处于一个信息爆炸的年代,能够在第一时间内获得或者找到最有价值的信息和资源,则成为企业在激烈地竞争中取胜的重要的因素,所以,商业智能(Business Intelligence)应运而生,而与之相关的技术和工具如Data Warehouse、 Data Mining、SAS则以惊人的速度得到快速、蓬勃的发展。
B. 小型企业搭建内部网络文件存储服务器有哪几种方法
使用电脑主机或者服务器搭建FTP/SAMBA/NFS服务
使用NAS网络存储服务器
使用启耘Box作为网络文件存储服务器
C. 小企业如何选购自己需要的数据存储设备
随着数据量的几何级数增长以及信息化的深入,小企业和小型组织购买专用数据存储设备的需求越来越迫切。例如:刚刚开始创业的小公司,大企业的分支机构或一个大量产生数据并需要长期保存的公司(如设计公司,软件公司等);还有政府机关的处室,大学的教研室,研究所的研究室以及这些单位的财务或后勤部门等。大多数小企业已经认识到日常的工作数据的共享和合作越来越重要,而把本小企业或本部门的数据随时备份起来已经是不得不拥有的一个信息化基本功能。尽管数据存储设备价格不断走低,但面对错综复杂的存储市场,小企业该如何选择呢?最好像家电一样简单易用数据存储设备的使用越来越复杂,存储应用需求也不断提高,这已经成为小企业使用存储的一个门槛。另外,如何有效利用存储软件资源,象数据存储设备管理和数据存储设备资源共享等对一个小企业或小组织几乎是一个复杂的技术问题。通常,小企业或组织既不可能拥有自己的专职信息化工作人员,也不可能使用非常复杂的信息化设备(如服务器等)。大多说情况下,只是通过一台ADSL接入宽带,外接一台交换机连接到所有桌面电脑,即构成了小企业网络。简单易行、即插即用和便于企业负责人(小企业的经理,政府的处长或大学的教授)直接使用和管理,是小企业的典型需求。所以,小企业需要的是一个入门级网络数据存储设备。尤其在亚洲,小型办公环境、网吧、多媒体教室等只有几十个人使用的一个小型局域网环境下,是一个使用廉价高效的共享存储的拥护环境。业界曾有公司指出:“许多在欧美家用产品的IT设备,在亚洲往往被作为中小企业办公设备使用;而在欧美当做中小企业办公设备的产品,在亚洲却往往因为价格和使用复杂度等因素被弃用。”。因此,象家用设备那样简单的数据存储设备在亚太地区是有一个相当的市场容量的。网络存储是首选根据Gartner Inc.公司的副总裁Craig Stanley的研究,平均起来,一个公司每两年的存储需求将增加一倍。而当拥有了廉价易用的小型存储后,需要存储和备份的数据就会成几何级数的增长。由于小型企业或组织拥有良好的本地网络环境,而服务器需要有懂IT的员工去安装,调试,维护和升级换代,移动硬盘又很难做到共享和给组织内提供备份功能,所以,小企业和小组织正在日益转向使用网络存储,以帮助他们更好的管理猛烈的存储需求。网络存储(NAS)无疑是小企业存储最简单的数据存储设备,因为每个小企业和组织不可能没有自己的局域网系统,所以网路存储是小企业使用存储的首选。数据共享和备份小企业对存储的最基本要求就是能够让每个员工有一个更大的存储空间去共享和备份数据。所以小企业或小组织的负责人需要做的无非是在该数据存储设备上给每个部门和员工设置使用权限,以向本组织的所有工作人员提供访问存储的用户空间。有了自己的存储空间后,每个员工就可以把自己台式机或便携机的数据按文件方式,系统方式或增量方式等备份在数据存储设备中。共享是小企业和组织另外一个经常用到的功能。每个部门无疑在该部门的员工之间一定要有共享空间,以分享该部门需要的资料、信息和各种数据(如试验数据,市场调研数据等)。除此之外,每个企业和组织都需要建立组织临时的跨部门机构以协力完成一个工作任务。如,景观设计公司承接一个用户项目,它需要设计师,工程部和预算部等的员工组成一个小组完成该项目的设计工作。而政府部门的任务,如质监局质量处解决一个品牌商品的质量问题,也需要该处室几个公务员协同调查,分析取证等。这也需要在该组公务员中建立共享区以利于大家协同工作和未来的分析报告。大学的一个科研项目则更需要建立共享去以便在教授(学术带头人),教师,研究生,本科生和实验室工作人员中为该项目建立一个共享区,共同完成科研项目。小企业和组织另外一个需要简单存储的领域是数据备份。当今,人类已经离不开计算机去完成日常工作,但计算机被病毒侵蚀,被丢失和偷盗,被损坏已经是家常便饭了。既然如此,数据备份就成为各种组织所不得不采取的防范措施。对于小企业和组织,简单的数据备份就能使他保证该组织工作的连续性。无论是前述例子中的公司的设计人物、政府的调查分析取证和报告还是高校的科研项目,一旦数据丢失,哪怕只是参加该工作的一个成员都会对该任务的进程带来不可估量的影响。尤其是如果这些工作带有设计的创意性,或数据的采集分析结果,或科研的实验室试验数据,甚至是不可恢复的。所以数据备份就成为该小企业或组织的必须。既然小企业和组织的小型存储是必须的数据存储设备,磁盘备份就是他不得不考虑的一个功能。即存在小型存储器的数据,如果该存储器的硬盘出现故障应该如何处理。磁盘备份就是小企业和组织所可以选用的功能。在一个有四个盘位的小型存储器中,可以将它设置成能够磁盘备份的模式。
D. 中小企业如何实现统一数据存储
中小企业和统一数据存储是一对完美的搭档。同样,统一存储对远程办公室、子办公室(ROBO)和SOHO环境也很合适。统一数据存储适合中小企业的原因是由于它的灵活性和常规的多用途功能。它还可以轻松地应用于中小企业的各种需求中。大型的数据存储环境可能拥有各种类型的数据存储解决方案,来满足不同的需求,但是中小企业可以利用更灵活的数据存储解决方案。 大型企业也可以从统一数据存储中受益,但是中小企业可以利用统一存储,从而利用现有的IT资产获得更多的使用。中小企业应该在想要或者需要灵活地支持模块或者文件,或者SAS、iSCSI 或FC模块、iSCSI和NAS等设备的联合体的时候,使用统一数据存储。例如,如果你需要5TB的可用存储,还需要RAID等级联合体的数据保护,你可能最好就需要10TB的物理存储。所以与其买5TB的NAS用于常规文件服务、主目录和其他数据,还要买5TB的模块存储系统用于数据库、交换机和其他应用,还不如寻找具有增长空间的10TB的统一存储解决方案。 还有,你应该查查可疑支持不同协议的方案,他们需要可以满足你的应用需要,还要支持分层存储(例如SSD和快速的15K SAS磁盘,以及高性能的SAS/SATA磁盘驱动)。
E. 企业中的数据是如何产生的如何保存的
企业的数据通常保存在各部门主管的电脑内,这样很容易形成数据孤岛。
什么是数据孤岛?
简单来说,就是企业发展到一定阶段时,各个部门各自存储数据,部门之间的数据无法共通,这导致这些数据像一个个孤岛一样缺乏关联性。 (最终常常因为难以流通和利用而变成死数据)
它会带来两种类型:
逻辑性数据孤岛:不同部门站在自己角度定义数据,使得相同数据被赋予不同含义,加大了跨部门数据合作的沟通成本。
物理性数据孤岛:数据在不同部门相互独立存储,独立维护,彼此间相互孤立。
面对这种情况,企业需要采用制定数据规范、定义数据标准的方式,规范化不同部门之间对数据的认知,任重而道远~
数据孤岛是如何形成的?又要如何解决?
1)以功能为标准的部门划分导致数据孤岛:
企业各部门之间相对独立,数据各自保管存储,对数据的认知角度也截然不同,最终导致数据之间难以互通,形成孤岛。也因此集团化的企业更容易产生数据孤岛的现象。
2)不同类型、不同版本的信息化管理系统导致数据孤岛:
人事部门用OA系统,生产部门用ERP系统,销售部门用CRM系统,甚至一个人事部门使用一家考勤软件的同时,却在同时使用另一家的报销软件,后果就是一家企业的数据互通越来越难。