㈠ 淘宝的数据库怎么搭建
我们也了解到,现在淘宝的整个的数据库团队在逐渐的把一些数据库从Oracle迁移到MySQL,然后呢,把一些服务器由小型机转到PC server,那你们整个转变的动机是什么?
主要是因为业务压力给了我们最大的动力。07年我来到淘宝的时候,当时只有三个主要的数据库,全部在小型机和存储上面。以当时的压力来看,它跑起来是非常顺利的,而且大家也知道小型机它从Unix操作系统到硬件,稳定性都会比PC server其实要高很多,当时的情况下淘宝用小型机是一个非常自然的选择。
从07年开始淘宝的业务量保持每年自然翻一番的增长,数据库质量感觉到非常大的压力。那么前端业务量增长一倍,在数据库上有可能增长是好几倍,它有一个放大效应在里边。当时我们第一步能够想到很自然的架构,就是把三个数据库拆成更多的数据库,或每一个数据库支持一个比较单一的业务。比如用户、商品和交易,都会分成独立的数据库,然后放到独立的小型计算中去,这是我们08年做的很大的事情就是垂直拆分,然后08年的业务我们就顶住了。
当时我们就预估09年、10年会有更大的压力增长,这个时候我们应该怎么办?当时我们从业界能看到很多的经验分享,包括eBay、亚马逊这些国外的大公司,他们的经验分享里面,水平拆分是我们数据库涨到一定程度后的架构选择。我们从Oracle到MySQL转移,主要是用水平拆分,这是我们未来的一个弱点,那水平拆分后机器、数据库的数量都会多很多,那Oracle它本身的成本也是我们考虑的一个重要因素,所以当时从成本考虑的话,那个时候我们自然会选择用MySQL数据库。
给我们再简单总结一下这几年,淘宝整个数据库的演变过程?
刚才说到08年我们做完垂直拆分以后,09年到今年我们主要做的工作其实就是水平拆分。今年在十月份之前我们全部完成了淘宝最核心的三个系统:交易数据库、商品数据库和用户数据库的水平拆分。所以到“双十一”之前,在我们内部采访中,我一直跟采访人员说,当时数据库情绪稳定。基本上我们没有做什么事情,只是在不停的看报表,看数据,然后很开心的看到交易曲线以超过45度的趋势往上涨。
那前期还是做了非常完善的准备。据我们了解在整个从小型机到PC server的迁移,包括从Oracle到MySQL数据库的迁移,你们在做这个事情的时候,都做过好几个月的压力测试。你讲讲这个背景和故事。
是这样的,今年我们年初决定,我们商品库从小型机迁到PC server上面去,这是淘宝压力最大的一个数据库,当时是用四台小型机加两个高端存储来支撑的。要把这么大一个数据库进行迁移,我们心里面也是没有底的,因为不知道要多少台PC server能够支撑,需要什么样的配置来支撑这个压力?当时我们能够想到一个很直观的想法就是模拟线上完全一样的压力,甚至加上几倍的压力来测它的极限值。
我们和开发团队、我们的性能测试团队,加上DBA团队和ops团队,成立了一个非常大的项目组,然后做了接近两个月的性能测试,在整个测试过程中发现了非常多的问题,包括我们给Oracle、MySQL等厂商都提交了很多Bug,有些Bug也得到厂商回应,进行修复。
那整体的转变的过程到现在进行到了什么样的程度?包括你在整个转变的过程中遇到哪些问题?
我们现在最核心的用户数据库今年已经彻底完成了从小型机、存储和Oracle切入到PC server加MySQL的架构。
我们内部有一个提法叫做去O、去I、去E,其实就是我们要从高端硬件Scale up模式到低端硬件的Scal out水平扩展的模式,这是淘宝内部最大最核心的系统,今年已经顺利完成了全部区的水平扩展。其他几个系统,比如说交易和商品已经完成了一部分,完成了水平拆分的一部分,但是没有达到我们希望的进度,这可能是明年我们需要做的事情。
在转型过程中主要遇到哪些问题?
让我们觉得比较大的问题就是我们从可靠的小型机迁移到大规模,大数据量的PC server上来,从架构上就对我们就是一个非常大的挑战。大家都知道,每一个PC server的稳定性肯定和单台小型机会有一定的差距,再加上我们一个机群有可能是32台或者64台PC server。每一台PC server即使有四个9的可用性,但如果我们整个系统合在一起,可能它最后的两个9的可用性都达不到。这就需要我们从软件层、架构层要做非常多的改进,能够要让单点的一些失效对整体的系统不造成任何影响,因为我们和架构部门、开发部门一起做了很多事情,才能保证我们的集群稳定上线。
其实“双十一”这个时间应该说是对过去的技术转变的检验,现在回头来看,这个检验的结果怎么样?
当时是有点提心吊胆的,之后又觉得相对来说今年我们做的很多事情还是非常成功的。但是现在再回头仔细想想还是有点后怕,“双十一”那天的凌晨零点不是有一次Ipad的秒杀吗,当天晚上我们都在线上观察数据,在零点的一瞬间,就看到所有数据库指标已经达到了以前正常时候最高峰的指标,有些甚至还超过了。
当天晚上睡觉的时候心里就有点在打鼓:才零点就这个样子了,明天下午明天晚上最高峰的时候我们应该怎么渡过?所以第二天早上八点多的时候我们一进到指挥部里面就看到所有的指标, 包括CDN的指标、各个业务线的指标、数据库的指标都是噌噌的往上涨,这时心里面其实是很忐忑不安的。
但是我们比较放心的是这三大核心系统,商品、用户和交易,在我们今年所有的水平扩展项目做完了以后,比如说商品功能做完了以后,从我们的机械压测里面它是有十倍的流量的,所以当天百分之一百,百分之两百的流量基本上对数据库没有造成太大的影响,所以当时还是很开心的看到这个指标快速的往上涨,希望交易能够通过10个亿、20个亿,我觉得都是能够承受的。
那对于整个数据库架构的演进下一步有什么打算?
下一步其实就是刚刚说的我们有几个核心系统还没有完全的做到这个水平扩展,加上“双十一”那天我们还是有一个小惊险:我们有一个数据库,跟交易核心有一点点联系的,但它还是放在小型机上面,当时已经提前为它准备了百分之一百的余量,就是说它可以承担平时最高压力的两倍。
但是那天已经达到平时最高压力的1.8倍左右的时候,把我们吓出了一身冷汗。如果当时淘宝的交易最高峰的流量再增长20%的话,有可能数据库就会到瓶颈了。所以我们明年是要把更多这种Scale up能够看到天花板的数据库全部要拆分成水平库存这种数据库。
那你刚才所提到的去Oracle,去小型机,去高端存储,这个“三去”的整体思路给淘宝网带来了哪些经济上的效应?
当时我们知道小型机和存储的价格是非常昂贵的,还是拿我们刚才说压力最大的商品数据库举个例子,当初我们数据库是用了四台高端的小型机,两套高端的存储,成本加起来起码都是三千万以上。那目前我们用的是32台PC server来搭建的一个机群,价格也就是300万~500万的级别。相对来说我们做完这个事情以后,解决了两三千万的硬件成本。
这样来讲,整体的经济效益还是非常不错的。但是其实刚才我们在前期沟通的时候也提到,你要从Oracle转到MySQL,包括从小型机转到PC server,其实里面还是会遇到蛮多问题的,包括它的不稳定性等等,那对于这一方面你有没有什么经验可谈?
在这一方面,我觉得有两个很重要的因素。第一个是我们需要和我们的开发前端应用架构部门能够紧密的合作,能够让我们的应用融入刚才说的整个机群的单点失效和容灾的问题。都需要我们和架构部门一起来考虑的;第二个比较大的经验就是目前我们在做的,深入研究MySQL的源代码。我们从研究和压力测试的过程中,发现MySQL它本身代码的一些缺陷,可能在高并发大压力下会有很多隐藏的Bug。
在我们最近的这次测试当中,我们还发现了Facebook发布的FlashCache二级缓存的软件,当时我们是测出它一个非常大的Bug:并发压力非常大的情况下,它会导致MySQL成为一个僵尸进程。我们发现了以后,很快反馈给Face book,然后Face book很快就修复了这个问题,这也是我们对使用开源软件带来更大的一个信心,就是开源能够在全球得到更多的支持,大家都能够从原代码层面来解决更深层次的一个问题。
我想这也可能是淘宝技术团队现在那么开放,那么注重开源的动力之一。那如果说想对MySQL的一些核心代码做编译,就需要对人才的储备,包括各方面资源整合的要求还是蛮大的,那你在这方面有没有什么感触?
说到人才这个话题,08年的时候,淘宝当时准备大规模的往MySQL方向上转,我们内部也是有一些置疑的声音。他们说淘宝DDA团队以前都是在Oracle方面比较专精,在业界来说,淘宝的DDA团队在Oracle方面更加有名气一些。所以我们内部有置疑的声音。就是说你们有MySQL专家吗,MySQL出问题了以后能很快的解决吗?所以从08年到现在,我们慢慢的一路走过来,内部培养了很多的MySQL的人才,包括这几年我们的应届生的成长,再加上我们从外部招到一些专家,我们对MySQL的理解已经越来越深。
刚才说到,我们已经能够给MySQL打Patch,已经能够给MySQL report这些Bug。到现在为止,我觉得MySQL的成长已经达到了非常高的一个程度,我们对MySQL已经越来越有信心,但是未来淘宝的MySQL肯定是要做得越来越大的,淘宝还有很多小型机上面扩展不太容易的系统需要迁移到可扩展的机群上面来,但我们也希望业界能够有更多的MySQL伙伴加入我们,和我们一起来做这么一件非常有意义的事情。
我想能够加入到淘宝的技术团队,去经历那么多有大交易量的技术实践还是非常宝贵的。另外一个问题就是虽然说现在我们用的越来越多的是MySQL,但是现在大家也知道MySQL已经被Oracle收购了,那对像淘宝这样的团队有什么影响呢?
大家都知道MySQL其实是基于GPL的协议来开源的软件,那淘宝在使用过程中,前期是已经考虑到一些风险。所以我们所有的MySQL都是自己来做编译做优化的,而且我想MySQL被Oracle收购了以后,现在看起来Oracle应该是给MySQL在开发这方面是提供了更大的帮助,像之前在Sun的时候,MySQL的版本相对来说是比较混乱的,包括我们现在在用的5.0和5.1的正式版本,最近还有包括开发方面就还有两个,一个6.0,一个5.4,这些特性会互相交织在一起,让我们选择的时候也有点不知道到底选哪个版本会更好一点。但现在Oracle收购MySQL以后,他把5.4跟6.0这些版本已经合成了一个比较规范的5.5的版本,并且为它制订了很好的一个milestone15:31,未来要怎么发展这个里程碑,M1、M2、M3、M4这种发展方向,而到现在为止这个5.5已经发展到5.6、5.7的版本,而且已经是IC版本了,很快就要GA了,那我想这对于MySQL来说应该是一个好消息。我们可以用到更多更稳定的新特性, 5.5版本里有几个新的特性是我们非常关注的,比如Google已经达到英文15:57这个pach,所以我们觉得对我们未来的这个MySQL这个系统非常有用的一个功能。那我们也等着Oracle的5.5这个版本能够尽快的GA出来。
㈡ 淘宝宝贝优化标题,建立关键词数据库,里面的数据都是怎么得来的呢比如:转化率,点击率,搜索人气
生e经,数据魔方,还有后台的生意参谋完全可以解决您的问题需要。希望可以帮到您
㈢ 淘宝用的什么数据库
淘宝选择的是MySQL的MyISAM引擎作为底层的数据存储引擎。
且为了应对海量数据,他们设计了分布式MySQL集群的查询代理层-MyFOX
㈣ 淘宝,标题,每修改一次,流量就下降一半。把标题改回原来的,流量也会恢复吗
1、每一个标题都有一个权重,之前那个标题给你带来流量权重之后你修改标题等于又重新开始这关键词引流,即使修改回原来的标题还是会有影响权重会比之前偏低。
2、标题一般上架之后就不太建议随便修改,因为修改或者删除关键词有可能不小心删除了的流量关键词。
3、例如商品流量来源几个关键词,假设女鞋,拖鞋,塑料拖鞋这三个关键词是这个商品的主要流量来源的话,删除了其中一个字,就可能会导致这个关键词流量没了.所以不要随便修改宝贝的名字,除非能清楚知道哪些词没流量,没吸引到顾客,就可以去删除或者修改。
4、修改标题后,为了避免或者减小修改标题对权重的影响,修改标题后,第一天、第二天、第三天利用直通车,做一个流量的递增,也就是修改标题后的接下来3天,直通车每天加点预算,保持宝贝的一个流量递增。那么这样能够将修改标题的降权影响降到最低。标题优化是个循环往复的过程,并非一蹴而就。
(4)淘宝标题数据库扩展阅读:
1、商品标题优化
(1)收集关键词渠道::主要收集渠道有人气商品标题采集、淘宝首页类目推荐词、搜索框下拉菜单词、淘宝排行、淘宝指数、数据魔方 淘词、量子恒道关键词报表、直通车词表,当然还有一些其他渠道。
2、编辑标题五大原则
(1)可读性原则,标题通顺流畅。
(2)前部吸引眼球,如N次断货等。
(3)等效原则,俗称引导向正式名称。
(4)符号原则:易读性符号和强调性符号。
(5)拆分原则:英文以字母为单位,汉字以淘宝数据库中的词组为单位,优先展示不需要拆分含该词的宝贝。
(6)无序原则:关键词排列顺序不对搜索产生影响。
资料来源:网络-淘宝优化
㈤ 如何找到淘宝热搜关键词
淘宝商品流量很多都是来源于商品的关键词,因为大部分买家到淘宝购物的时候都是通过搜索淘宝关键词查找商品的,如果关键词的热度高了,就很可能就把商品呈现到买家面前了,这样也就能增加销售的几率了。那么淘宝热门关键词怎么找?怎样利用好?
淘宝热门关键词怎么找?
方法1:在淘宝网首页输入所在类目的相关关键词;
方法2:在淘宝搜索框输入关键词的时候会出现下拉框,下面的关键词也可以作为参考;
方法3:淘宝搜索排行榜,这里可以从各类目的完整榜单中寻找对自己有价值的关键词;
方法4:进入卖家中心—查看店铺运营助手—点击进入更多热门关键词—在淘宝情报里面也可以找到一些热门搜索词;
方法5:淘宝官方的淘宝搜索指数数据库,里面有每天的数据变化形势图,可以在搜索框里输入关键词查看指数,也可以进行多个关键词进行对比,还能分析成交指数,这样有利于进行关键词的筛选。
方法6:在淘宝首页搜索框里输入关键词的时候,会看到有一栏“是不是想找某某关键词”,这里也可以作为寻找关键词的参考;
方法7:主要是参考的同行,查找那些做得比较好的、排名比较靠前的,并且与类目相同或相关的店铺或商城,通过分析别人的标题来获取对有价值的关键词为我所用。
怎样利用好?
淘宝推荐的这些词淘宝认为权重比较高的词。我们就可以利用上面的词组合优化标题,然后再搜索全标题,如果没有出现这个词,那就说明淘宝引擎没有读懂你的意思,与你想表达的意思不符合,那我们就需要调整我们的一个组合方式,知道出现以上的关键词,那我们的标题就成功了。
我们要记住这一点,标题不是做好了就一直不变的,比如你的宝贝在首页,就会有很多的人会直接的复制标题,那样的话,你在搜索这个标题,系统就不会在推荐那些权重高的词,因为有N个相似的标题了,淘宝已经读不出好的词了。
因此如果是新品一定不能抄标题,但大家可以参考同行标题进行匹配。与此同时,我们要时刻关注数据去定期优化,建议15天为一个周期,注意不要太频繁,要不然系统会误认为宝贝会有一场哦,自然流量也会是降低的哦。
㈥ 淘宝数据库如何制作
现在都不用数据库了,都改数据包了!
㈦ 请问淘宝里的数据库指的是什么
我不知道你问的是什么意思,但是我猜你可能想知道淘宝用的什么数据库吧,那我可以很明确的告诉你,他用的是oracle数据库,是目前世界排名第一的数据库,一般只有大网站,才能负担得起这种数据库,因为他的价格实在是太昂贵了