weblvs_分布式Web服务器架构

1. wiki的简介

有人认为，Wiki系统属于一种人类知识网格系统，可以在Web的基础上对Wiki文本进行浏览、创建、更改，而且创建、更改、发布的代价远比HTML文本小；同时Wiki系统还支持面向社群的协作式写作，为协作式写作提供必要帮助；最后，Wiki的写作者自然构成了一个社群，Wiki系统为这个社群提供简单的交流工具。与其它超文本系统相比，Wiki有使用方便及开放的特点，所以Wiki系统可以帮助我们在一个社群内共享某领域的知识。
由于WiKi可以调动最广大的网民的群体智慧参与网络创造和互动，它是web2.0的一种典型应用，是知识社会条件下创新2.0的一种典型形式。它也为教师和学生的知识共享提供了高效的平台，实现了快速广泛的信息整合。
Wiki的架构
GeoDNS
这个GeoDNS可能比较新奇，实际上原理很简单，GeoDNS是一个为BIND写的40行的小程序，可以让DNS解析的时候考虑地域因素——让用户能够访问离他地域最近的Web服务器。
LVS
LVS 是一个开源的软件,可以实现 Linux平台下的简单负载均衡。主要由负载调度器、服务器池和共享存储构成。可喜的是，这是一款为数不多的中国人自己编写的开源软件（章文嵩发起）；可惜的是，LVS目前仅支持Linux。
Squid
Squid大家可能都比较熟悉，Squid是一种用来缓冲Internet数据的软件。尤其适合像维基这样的遍布全球，数据中心却很集中的站点使用。在维基中，Squid缓存分为两组，一组是文档内容（多为压缩的HTML页面），另一组为媒体内容，主要包括图片等大一点的静态文件。目前总计有55台Squid服务器在维基运行，维基正在准备添加另外的20台。根据维基披露的资料，其中每一台服务器每秒要处理1000～2500 个http请求，每台服务器承受100Mb/s～250Mb/s的流量，每台服务器负责1.4～3.2万个连接，每台Squid服务器分配出40GB作为缓存空间。硬件方面，这些Squid服务器每台都有4块硬盘，8GB内存。
维基媒体平台
维基所有的项目都运行在维基媒体平台上，这是一个遵守GPL的开源软件，以PHP写成。维基本身在使用，但很多别的机构也使用了该软件平台。在所有125台应用服务器上都安装了维基媒体平台，还有40台应用服务器马上就要上线，这些应用服务器都采用了两颗四核的CPU。这些媒体平台都由一个中心控制台控制，维基可以通过该平台部署某个应用到数百台机器上，非常方便。维基媒体平台非常注重缓存，多数缓存都放在Memcached中。
CDN
维基在美国、荷兰和韩国分别设有群集，维基CDN会根据来访IP位置的不同选择指向最近的群集。
数据存储
元数据，比如文章修改历史，文章的链接和用户资料等内容被存放于主数据库；正文存于外部存储；用户上传的图片等信息则单独存放于图片服务器。
主数据库服务器一共有15台，配置为内存4GB～16GB，6块73～146GB的硬盘和双CPU。数据库中除了有一个主数据库，还有许多复制的从数据库，这些主从数据库并不是按照服务器个数来划分的，数据库都是跨服务器运行的。

2. web开发都要具备哪些必备能力

一，html，css能力
1，了解阶段，知道html标签是干什么用的，通过网络和手册能自主的写一些html，知道css是怎么回事，能在html中写一些简单的style等
2，熟悉阶段，能利用css来能设计一些简单的布局，可以将css单独的写成文件，熟悉css的语法规则，以及继承性等
3，很熟悉阶段，能够设计出很好的CSS，并且管理好这些CSS文件，尽量减少冗余代码。知道如何写出有利于搜索引擎搜索的代码，例如：title,h1,h2权重比较高的。等
二，js能力
如果提高用户体验，是一个网站能留住人的重要标志。这个就要用到JS了
1，了解阶段，了解JS的基本语法，知道如何去调试这些程序，能写一些简单function等
2，熟悉阶段，对JS的语法，函数，正则等已经熟悉了，能利用js来写一些特效，并且发现用JS写特效，是比较累人的一件事，开始尝试jquery,prototype，并对jquery,prototype基本语法有所解，个人反对不学 JS，直接入手jquery,prototype这样的JS框架。
3，很熟悉阶段，在框架的帮助下，能熟练的用OOP的思想的来写代码，而不是一个个 function累加，熟练运用jquery,prototype的ajax，或者是网上一些ajax框架，如（ajaxrequest），不在直接写 active控件了。能够利用网络资源，来完成各种特效。
三，最关键的php能力
1，了解阶段，您能写一些代码，因为那是在手册和google的帮助下，您才完成的。变量乱定义，N多函数不知道，做起事来很慢，想到什么写什么，代码写的比较乱，后期维护很麻烦。
2，熟悉阶段，经常查函数，手册估计也看过一，二遍了，常用的函数基本上您都了解了。后期维护给您带来了不少痛苦，您开始发现自己的代码有很多不足，开始思考如果改进自己的代码，如何站在项目的角度来规划自己的代码，而不是想到什么写什么，知道如何来减少冗余代码，使您的代码清晰，知道什么样的代码写出来让人看着舒服，基本的代码规范，已经形成。为了提高自己，会特意的去一些技术性的论坛，学习研究。
3，很熟悉阶段，这个阶段，我想您已经从面向过程进入了面向对象。个人觉得面向对象的最大好处就是，能使整个项目功能化，模块化，后期维护，改版，升级就很方便了。没有面向对象的时候，不也一样开发吗.这个时期，您已经研究过了一种或者几种框架，结合自己的实际项目经验，在脑子里已经能形成自己的一个框架，这个框架是最适合你的。并且能够将这个框架运用到实际的开发中去，以提高自己的开发效率，并且能够优化性能！
四，数据库能力
用php来做项目的话，用mysql是最多的了，其次是pgsql。因为他们二个是免费的。哈哈，以mysql为例
1，了解阶段，知道mysql是什么，能写一些简单的sql语句，能设计简单的表，知道如何使用数据库管理工具（如：phpmyadmin）
2，熟悉阶段，知道如何才能写出高效率的sql语句，了解索引原理，知道如何创建索引，会写一些储存过程，触发器等，能通过各种手段来分析，测试数据库，例如：利用mysqlslap来进行压力测试，通来explain来分析sql语句，通过开启慢查询来分析哪些sql语句真正影响mysql的运行，能利用dbdesigner4,mysql workbench为设计数据库，能在命令状态下，查询，分析mysql环境变量，来分析mysql的运行状态等等
3，很熟悉阶段，对于各有种存储引擎的原理非常熟悉，知道通过修改配置文件来，使存储引擎达到最优化，知道如何来优化数据库的最大连接数，知道怎么样来优化mysql的I/o瓶颈，为了项目的需要，向mysql数据库增加存储引擎或者插件，知道如何搭建数据库集群，并监控数据库的运行状态等等
五，apache等能力
个人觉得，到目录为止，跑php的话用apache的人还是最多，前段时间好多网站在吵NGINX有多么多么的好，能比apache好10倍，我觉得还是亲自尝试一下比较好。以apache为例
1，了解阶段，不管是linux下，还是windows下，能够安装配置apache，知道如何添加php添模，如果面试官问你，apache为什么能解释php代码，你怎么回答呢。对apache的基本配置有所了解，对于启动中遇到的问题能够解决等
2，熟悉阶段，知道如何向apache中添加新的模块，如果如何进行url重写，防盗链，进行IP限制等
3，很熟悉阶段，知道如何利用apache来缓存图片，能利用apache来做负载均衡，并且知道利用ab命令来进行压力，通过工具对日志分析，经过分析来对apache进行优化，知道如何搭建多个虚拟主机；对apahce的常用模块都有实际操作经验等
对apache进行监控和维护，一般是运维人员或者是项目经理来做的，个人觉得最好还是了解一点，因为这样您才不会那么容易被忽悠，对于自己将来的转型也是非常有必要的。
六，linux系统
为什么要掌握linux系统呢？用php写的网站大多数运行在linux或者 freebsd下的，掌握linux系统对自己将来的发展还是比较有好处的。，在linux下，不用担心中毒的问题，linux下的病毒很少，也不用担心，XX和XXX扫描你的硬盘了。哈哈
1，熟悉阶段，会装linux系统，对系统的常用命令能够熟练运用等
2，运用阶段，在linux系统下，能够安装配置apache,php,mysql,svn,memcache,squid，lvs等一些web项目必要的工具，能够通过日志分析其状态等。对shell要有所了解，并能够写一些简单的shell脚本等
七，沟通能力
这一点非常重要，并且被越来越多的人所忽视，其实做程序员挺杯具的，根电脑打交道的时间是最多，也许是因为这样吧，沟通的时候，是比较费劲的，也有可能是被程序的严谨性束缚了大脑，说出来的话，太专业，可能其他人听不懂得。所以平时多和他人交流，特别是根非技术人员多沟通，多站在对方的角度来思想问题，这样的话，我想沟通起来会容易很多。

3. 分布式Web服务器架构

最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易出问题，于是进入了第一步演变阶段：将应用和数据库从物理上分离，变成了两台机器，这个时候技术上没有什么新的要求，但你发现确实起到效果了，系统又恢复到以前的响应速度了，并且支撑住了更高的流量，并且不会因为数据库和应用形成互相的影响。

这一步架构演变对技术上的知识体系基本没有要求。

架构演变第二步：增加页面缓存

好景不长，随着访问的人越来越多，你发现响应速度又开始变慢了，查找原因，发现是访问数据库的操作太多，导致数据连接竞争激烈，所以响应变慢，但数据库连接又不能开太多，否则数据库机器压力会很高，因此考虑采用缓存机制来减少数据库连接资源的竞争和对数据库读的压力，这个时候首先也许会选择采用squid 等类似的机制来将系统中相对静态的页面（例如一两天才会有更新的页面）进行缓存（当然，也可以采用将页面静态化的方案），这样程序上可以不做修改，就能够很好的减少对webserver的压力以及减少数据库连接资源的竞争，OK，于是开始采用squid来做相对静态的页面的缓存。
前端页面缓存技术，例如squid，如想用好的话还得深入掌握下squid的实现方式以及缓存的失效算法等。

架构演变第三步：增加页面片段缓存

增加了squid做缓存后，整体系统的速度确实是提升了，webserver的压力也开始下降了，但随着访问量的增加，发现系统又开始变的有些慢了，在尝到了squid之类的动态缓存带来的好处后，开始想能不能让现在那些动态页面里相对静态的部分也缓存起来呢，因此考虑采用类似ESI之类的页面片段缓存策略，OK，于是开始采用ESI来做动态页面中相对静态的片段部分的缓存。
这一步涉及到了这些知识体系：
页面片段缓存技术，例如ESI等，想用好的话同样需要掌握ESI的实现方式等；

架构演变第四步：数据缓存
在采用ESI之类的技术再次提高了系统的缓存效果后，系统的压力确实进一步降低了，但同样，随着访问量的增加，系统还是开始变慢，经过查找，可能会发现系统中存在一些重复获取数据信息的地方，像获取用户信息等，这个时候开始考虑是不是可以将这些数据信息也缓存起来呢，于是将这些数据缓存到本地内存，改变完毕后，完全符合预期，系统的响应速度又恢复了，数据库的压力也再度降低了不少。

这一步涉及到了这些知识体系：

缓存技术，包括像Map数据结构、缓存算法、所选用的框架本身的实现机制等。

架构演变第五步：增加webserver

好景不长，发现随着系统访问量的再度增加，webserver机器的压力在高峰期会上升到比较高，这个时候开始考虑增加一台webserver，这也是为了同时解决可用性的问题，避免单台的webserver down机的话就没法使用了，在做了这些考虑后，决定增加一台webserver，增加一台webserver时，会碰到一些问题，典型的有：
1、如何让访问分配到这两台机器上，这个时候通常会考虑的方案是Apache自带的负载均衡方案，或LVS这类的软件负载均衡方案；
2、如何保持状态信息的同步，例如用户session等，这个时候会考虑的方案有写入数据库、写入存储、cookie或同步session信息等机制等；
3、如何保持数据缓存信息的同步，例如之前缓存的用户数据等，这个时候通常会考虑的机制有缓存同步或分布式缓存；
4、如何让上传文件这些类似的功能继续正常，这个时候通常会考虑的机制是使用共享文件系统或存储等；
在解决了这些问题后，终于是把webserver增加为了两台，系统终于是又恢复到了以往的速度。

这一步涉及到了这些知识体系：

负载均衡技术（包括但不限于硬件负载均衡、软件负载均衡、负载算法、linux转发协议、所选用的技术的实现细节等）、主备技术（包括但不限于 ARP欺骗、linux heart-beat等）、状态信息或缓存同步技术（包括但不限于Cookie技术、UDP协议、状态信息广播、所选用的缓存同步技术的实现细节等）、共享文件技术（包括但不限于NFS等）、存储技术（包括但不限于存储设备等）。

架构演变第六步：分库

享受了一段时间的系统访问量高速增长的幸福后，发现系统又开始变慢了，这次又是什么状况呢，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢，这下怎么办呢，此时可选的方案有数据库集群和分库策略，集群方面像有些数据库支持的并不是很好，因此分库会成为比较普遍的策略，分库也就意味着要对原有程序进行修改，一通修改实现分库后，不错，目标达到了，系统恢复甚至速度比以前还快了。
这一步涉及到了这些知识体系：

这一步更多的是需要从业务上做合理的划分，以实现分库，具体技术细节上没有其他的要求；

但同时随着数据量的增大和分库的进行，在数据库的设计、调优以及维护上需要做的更好，因此对这些方面的技术还是提出了很高的要求的。

架构演变第七步：分表、DAL和分布式缓存
随着系统的不断运行，数据量开始大幅度增长，这个时候发现分库后查询仍然会有些慢，于是按照分库的思想开始做分表的工作，当然，这不可避免的会需要对程序进行一些修改，也许在这个时候就会发现应用自己要关心分库分表的规则等，还是有些复杂的，于是萌生能否增加一个通用的框架来实现分库分表的数据访问，这个在ebay的架构中对应的就是DAL，这个演变的过程相对而言需要花费较长的时间，当然，也有可能这个通用的框架会等到分表做完后才开始做，同时，在这个阶段可能会发现之前的缓存同步方案出现问题，因为数据量太大，导致现在不太可能将缓存存在本地，然后同步的方式，需要采用分布式缓存方案了，于是，又是一通考察和折磨，终于是将大量的数据缓存转移到分布式缓存上了。
这一步涉及到了这些知识体系：
分表更多的同样是业务上的划分，技术上涉及到的会有动态hash算法、consistent hash算法等；

DAL涉及到比较多的复杂技术，例如数据库连接的管理（超时、异常）、数据库操作的控制（超时、异常）、分库分表规则的封装等；

架构演变第八步：增加更多的webserver

在做完分库分表这些工作后，数据库上的压力已经降到比较低了，又开始过着每天看着访问量暴增的幸福生活了，突然有一天，发现系统的访问又开始有变慢的趋势了，这个时候首先查看数据库，压力一切正常，之后查看webserver，发现apache阻塞了很多的请求，而应用服务器对每个请求也是比较快的，看来是请求数太高导致需要排队等待，响应速度变慢，这还好办，一般来说，这个时候也会有些钱了，于是添加一些webserver服务器，在这个添加 webserver服务器的过程，有可能会出现几种挑战：
1、Apache的软负载或LVS软负载等无法承担巨大的web访问量（请求连接数、网络流量等）的调度了，这个时候如果经费允许的话，会采取的方案是购买硬件负载，例如F5、Netsclar、Athelon之类的，如经费不允许的话，会采取的方案是将应用从逻辑上做一定的分类，然后分散到不同的软负载集群中；
2、原有的一些状态信息同步、文件共享等方案可能会出现瓶颈，需要进行改进，也许这个时候会根据情况编写符合网站业务需求的分布式文件系统等；
在做完这些工作后，开始进入一个看似完美的无限伸缩的时代，当网站流量增加时，应对的解决方案就是不断的添加webserver。
这一步涉及到了这些知识体系：

到了这一步，随着机器数的不断增长、数据量的不断增长和对系统可用性的要求越来越高，这个时候要求对所采用的技术都要有更为深入的理解，并需要根据网站的需求来做更加定制性质的产品。

架构演变第九步：数据读写分离和廉价存储方案

突然有一天，发现这个完美的时代也要结束了，数据库的噩梦又一次出现在眼前了，由于添加的webserver太多了，导致数据库连接的资源还是不够用，而这个时候又已经分库分表了，开始分析数据库的压力状况，可能会发现数据库的读写比很高，这个时候通常会想到数据读写分离的方案，当然，这个方案要实现并不容易，另外，可能会发现一些数据存储在数据库上有些浪费，或者说过于占用数据库资源，因此在这个阶段可能会形成的架构演变是实现数据读写分离，同时编写一些更为廉价的存储方案，例如BigTable这种。

这一步涉及到了这些知识体系：

数据读写分离要求对数据库的复制、standby等策略有深入的掌握和理解，同时会要求具备自行实现的技术；

廉价存储方案要求对OS的文件存储有深入的掌握和理解，同时要求对采用的语言在文件这块的实现有深入的掌握。

架构演变第十步：进入大型分布式应用时代和廉价服务器群梦想时代

经过上面这个漫长而痛苦的过程，终于是再度迎来了完美的时代，不断的增加webserver就可以支撑越来越高的访问量了，对于大型网站而言，人气的重要毋庸置疑，随着人气的越来越高，各种各样的功能需求也开始爆发性的增长，这个时候突然发现，原来部署在webserver上的那个web应用已经非常庞大了，当多个团队都开始对其进行改动时，可真是相当的不方便，复用性也相当糟糕，基本是每个团队都做了或多或少重复的事情，而且部署和维护也是相当的麻烦，因为庞大的应用包在N台机器上复制、启动都需要耗费不少的时间，出问题的时候也不是很好查，另外一个更糟糕的状况是很有可能会出现某个应用上的bug就导致了全站都不可用，还有其他的像调优不好操作（因为机器上部署的应用什么都要做，根本就无法进行针对性的调优）等因素，根据这样的分析，开始痛下决心，将系统根据职责进行拆分，于是一个大型的分布式应用就诞生了，通常，这个步骤需要耗费相当长的时间，因为会碰到很多的挑战：
1、拆成分布式后需要提供一个高性能、稳定的通信框架，并且需要支持多种不同的通信和远程调用方式；
2、将一个庞大的应用拆分需要耗费很长的时间，需要进行业务的整理和系统依赖关系的控制等；
3、如何运维（依赖管理、运行状况管理、错误追踪、调优、监控和报警等）好这个庞大的分布式应用。
经过这一步，差不多系统的架构进入相对稳定的阶段，同时也能开始采用大量的廉价机器来支撑着巨大的访问量和数据量，结合这套架构以及这么多次演变过程吸取的经验来采用其他各种各样的方法来支撑着越来越高的访问量。
这一步涉及到了这些知识体系：

这一步涉及的知识体系非常的多，要求对通信、远程调用、消息机制等有深入的理解和掌握，要求的都是从理论、硬件级、操作系统级以及所采用的语言的实现都有清楚的理解。
运维这块涉及的知识体系也非常的多，多数情况下需要掌握分布式并行计算、报表、监控技术以及规则策略等等。
说起来确实不怎么费力，整个网站架构的经典演变过程都和上面比较的类似，当然，每步采取的方案，演变的步骤有可能有不同，另外，由于网站的业务不同，会有不同的专业技术的需求，这篇blog更多的是从架构的角度来讲解演变的过程，当然，其中还有很多的技术也未在此提及，像数据库集群、数据挖掘、搜索等，但在真实的演变过程中还会借助像提升硬件配置、网络环境、改造操作系统、CDN镜像等来支撑更大的流量，因此在真实的发展过程中还会有很多的不同，另外一个大型网站要做到的远远不仅仅上面这些，还有像安全、运维、运营、服务、存储等，要做好一个大型的网站真的很不容易

4. 如何配置Web服务器实现负载均衡

网络的负载均衡是一种动态均衡技术，通过一些工具实时地分析数据包，掌握网络中的数据流量状况，把任务合理均衡地分配出去。这种技术基于现有网络结构，提供了一种扩展服务器带宽和增加服务器吞吐量的廉价有效的方法，加强了网络数据处理能力，提高了网络的灵活性和可用性。

以四台服务器为例实现负载均衡：

安装配置LVS

1. 安装前准备：

(1)首先说明，LVS并不要求集群中的服务器规格划一，相反，可以根据服务器的不同配置和负载状况，调整负载分配策略，充分利用集群环境中的每一台服务器。如下表：

Srv Eth0 Eth0：0 Eth1 Eth1：0

vs1 10.0.0.1 10.0.0.2 192.168.10.1 192.168.10.254

vsbak 10.0.0.3 192.168.10.102

real1 192.168.10.100

real2 192.168.10.101

其中，10.0.0.2是允许用户访问的IP。

(2)这4台服务器中，vs1作为虚拟服务器(即负载平衡服务器)，负责将用户的访问请求转发到集群内部的real1，real2，然后由real1，real2分别处理。
Client为客户端测试机器，可以为任意操作系统。

(3)所有OS为redhat6.2，其中vs1 和vsbak 的核心是2.2.19，而且patch过ipvs的包，所有real
server的Subnet mask 都是24位， vs1和vsbak 的10.0.0. 网段是24 位。

2.理解LVS中的相关术语

(1) ipvsadm ：ipvsadm是LVS的一个用户界面。在负载均衡器上编译、安装ipvsadm。

(2) 调度算法： LVS的负载均衡器有以下几种调度规则：Round-robin，简称rr;weighted
Round-robin，简称wrr;每个新的连接被轮流指派到每个物理服务器。Least-connected，简称lc;weighted
Least-connected，简称wlc，每个新的连接被分配到负担最小的服务器。

(3) Persistent client
connection，简称pcc，(持续的客户端连接，内核2.2.10版以后才支持)。所有来自同一个IP的客户端将一直连接到同一个物理服务器。超时时间被设置为360秒。Pcc是为https和cookie服务设置的。在这处调度规则下，第一次连接后，所有以后来自相同客户端的连接(包括来自其它端口)将会发送到相同的物理服务器。但这也会带来一个问题，因为大约有25%的Internet
可能具有相同的IP地址。

(4) Persistent port
connection调度算法：在内核2.2.12版以后，pcc功能已从一个调度算法(你可以选择不同的调度算法：rr、wrr、lc、wlc、pcc)演变成为了一个开关选项(你可以让rr、
wrr、lc、wlc具备pcc的属性)。在设置时，如果你没有选择调度算法时，ipvsadm将默认为wlc算法。在Persistent port
connection(ppc)算法下，连接的指派是基于端口的，例如，来自相同终端的80端口与443端口的请求，将被分配到不同的物理服务器上。不幸的是，如果你需要在的网站上采用cookies时将出问题，因为http是使用80端口，然而cookies需要使用443端口，这种方法下，很可能会出现cookies不正常的情况。

(5)Load Node Feature of Linux Director：让Load balancer 也可以处理users 请求。

(6)IPVS connection synchronization。

(7)ARP Problem of LVS/TUN and LVS/DR：这个问题只在LVS/DR，LVS/TUN 时存在。

3. 配置实例

(1) 需要的软件包和包的安装：

I. piranha-gui-0.4.12-2*.rpm (GUI接口cluster设定工具);

II. piranha-0.4.12-2*.rpm;

III. ipchains-1.3.9-6lp*.rpm (架设NAT)。

取得套件或mount到光盘，进入RPMS目录进行安装:

# rpm -Uvh piranha*

# rpm -Uvh ipchains*

(2) real server群：

真正提供服务的server(如web
server)，在NAT形式下是以内部虚拟网域的形式，设定如同一般虚拟网域中Client端使用网域：192.168.10.0/24
架设方式同一般使用虚拟IP之局域网络。

a. 设网卡IP

real1 ：192.168.10.100/24

real2 ：192.168.10.101/24

b.每台server均将default gateway指向192.168.10.254。
192.168.10.254为该网域唯一对外之信道，设定在virtual server上，使该网域进出均需通过virtual server 。

c.每台server均开启httpd功能供web server服务，可以在各real server上放置不同内容之网页，可由浏览器观察其对各real
server读取网页的情形。

d.每台server都开启rstatd、sshd、rwalld、ruser、rsh、rsync，并且从Vserver上面拿到相同的lvs.conf文件。

(3) virtual server：

作用在导引封包的对外主机，专职负责封包的转送，不提供服务，但因为在NAT型式下必须对进出封包进行改写，所以负担亦重。

a.IP设置：

对外eth0：IP：10.0.0.1 eth0：0 ：10.0.0.2

对内eth1：192.168.10.1 eth1：0 ：192.168.10.254

NAT形式下仅virtual server有真实IP，real server群则为透过virtual server.

b.设定NAT功能

# echo 1 >; /proc/sys/net/ipv4/ip_forward

# echo 1 >; /proc/sys/net/ipv4/ip_always_defrag

# ipchains -P forward MASQ

c.设定piranha 进入X-window中 (也可以直接编辑/etc/lvs.cf )

a).执行面板系统piranha

b).设定“整体配置”(Global Settings) 主LVS服务器主机IP：10.0.0.2，选定网络地址翻译(预设) NAT路径名称：
192.168.10.254， NAT 路径装置： eth1：0

c).设定虚拟服务器(Virtual Servers) 添加编辑虚拟服务器部分：(Virtual
Server)名称：(任意取名);应用：http;协议： tcp;连接：80;地址：10.0..0.2;装置：eth0：0; 重入时间：180
(预设);服务延时：10 (预设);加载监控工具：ruptime (预设);调度策略：Weighted least-connections; 持续性：0
(预设); 持续性屏蔽： 255.255.255.255 (预设); 按下激活：实时服务器部分：(Real Servers); 添加编辑：名字：(任意取名);
地址： 192.168.10.100; 权重：1 (预设) 按下激活

另一架real server同上，地址：192.168.10.101。

d). 控制/监控(Controls/Monitoring)
控制：piranha功能的激活与停止，上述内容设定完成后即可按开始键激活piranha.监控器：显示ipvsadm设定之routing table内容
可立即更新或定时更新。

(4)备援主机的设定(HA)

单一virtual server的cluster架构virtual server 负担较大，提供另一主机担任备援，可避免virtual
server的故障而使对外服务工作终止;备份主机随时处于预备状态与virtual server相互侦测

a.备份主机：

eth0： IP 10.0.0.3

eth1： IP 192.168.10.102 同样需安装piranha，ipvsadm，ipchains等套件

b.开启NAT功能(同上面所述)。

c.在virtual server(10.0.0.2)主机上设定。

a).执行piranha冗余度 ;

b).按下“激活冗余度”;

冗余LVS服务器IP： 10.0.0.3;HEARTBEAT间隔(秒数)： 2 (预设)

假定在…秒后进入DEAD状态： 5 (预设);HEARTBEAT连接端口： 539 (预设)

c).按下“套用”;

d).至“控制/监控”页，按下“在当前执行层添加PULSE DEAMON” ，按下“开始”;

e).在监控器按下“自动更新”，这样可由窗口中看到ipvsadm所设定的routing table，并且动态显示real
server联机情形，若real server故障，该主机亦会从监视窗口中消失。

d.激活备份主机之pulse daemon (执行# /etc/rc.d/init.d/pulse start)。

至此，HA功能已经激活，备份主机及virtual server由pulse daemon定时相互探询，一但virtual
server故障，备份主机立刻激活代替;至virtual server 正常上线后随即将工作交还virtual server。

LVS测试

经过了上面的配置步骤，现在可以测试LVS了，步骤如下：

1. 分别在vs1，real1，real2上运行/etc/lvs/rc.lvs_dr。注意，real1，real2上面的/etc/lvs
目录是vs2输出的。如果您的NFS配置没有成功，也可以把vs1上/etc/lvs/rc.lvs_dr复制到real1，real2上，然后分别运行。确保real1，real2上面的apache已经启动并且允许telnet。

2. 测试Telnet：从client运行telnet 10.0.0.2，
如果登录后看到如下输出就说明集群已经开始工作了：(假设以guest用户身份登录)

[guest@real1 guest]$——说明已经登录到服务器real1上。

再开启一个telnet窗口，登录后会发现系统提示变为：

[guest@real2 guest]$——说明已经登录到服务器real2上。

3. 测试http：从client运行iexplore http://10.0.0.2

因为在real1 和real2 上面的测试页不同，所以登录几次之后，显示出的页面也会有所不同，这样说明real server 已经在正常工作了。

5. LVS+Nginx+DNS+web服务器组成的反向代理解析流程是什么

这个架构我完全无法理解，为毛要2台lvs，一般2台lvs是为了分流或高可用，好吧我暂时这么理解他的意图，1台nginx是作为反向代理，简单理解就是在客户端看来服务器端就是一台机器，防止其他人员了解你的后端架构和处理流程，nginx也可以减轻web的资源消耗主要是内存和io，也可以配置当成日志服务器，减轻web的压力，但是他后端就一台web啊，用这个架构为毛啊，好吧我暂时理解为他是为了以后方便拓展架构；1台dns服务器，为毛啊，无法理解，如果只是为了网站本身需要完全可以自解析，直接写hosts不是更方便，好吧，其实架设dns服务器是个好习惯，但是在资源有限的前提下，我认为不如把dns换成web，资源利用率更高；lvs和nginx都有负载均衡的作用，小架构1台nginx完全可以搞定，2台lvs纯属浪费；至于123456的问题，nginx配置，推荐《决战nginx》高性能web服务器详解与运维；至于架构原理，推荐《构建高可用linux服务器》余洪春

简单说下流程：正常应该是，客户端包先到lvs，lvs做了高可用，lvs分发给nginx，nginx查询dns后分发给web

6. lvs 一台转发两台web 最近发现两台很慢于是把其中一台给撤了跑的比两台都快！！这是啥情况

检查一下lvs上面的转发速度和资源使用量

7. 美团面试题：如何设计负载均衡架构支撑千万级用户的高并发访问

1.1 负载均衡介绍

1.1.1 负载均衡的妙用

1.1.2 为什么要用lvs

那为什么要用lvs呢？

ü 简单一句话，当并发超过了Nginx上限，就可以使用LVS了。

ü 日1000-2000W PV或并发请求1万以下都可以考虑用Nginx。

ü 大型门户网站，电商网站需要用到LVS。

1.2 LVS介绍

LVS是Linux Virtual Server的简写，意即Linux虚拟服务器，是一个虚拟的服务器集群系统，可以在UNIX/LINUX平台下实现负载均衡集群功能。该项目在1998年5月由章文嵩博士组织成立，是 中国国内最早出现的自由软件项目之一 。

1.2.1 相关参考资料

LVS官网： http://www.linuxvirtualserver.org/index.html

weblvs

与weblvs相关的内容