当前位置:首页 » 网页前端 » web服务性能监控
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

web服务性能监控

发布时间: 2022-06-29 07:40:32

① Web测试的主要内容和测试方法有哪些


测试分类:


1、界面测试

1)给用户的整体感:舒适感;凭感觉能找到想要找的信息;设计风格是否一致

2)各控件的功能

2、功能测试

1)删除/增加某一项:是否对其他项造成影响,这些影响是否都正确

2)列表默认值检查

3)检查按钮功能是否正确:新建、编辑、删除、关闭、返回、保存、导入、上一页、下一页、页面跳转、重置(常见错误)

4)字符串长度检查:超出长度

5)字符类型检查

6)标点符号检查:空格、各种引号、Enter键

7)特殊字符:常见%、“、”

8)中文字符:是否乱码

9)检查信息完整:查看信息,查看所填信息是否完整更新;更新信息,更新信息与添加信息是否一致

10)信息重复:需唯一信息处,比如重复的名字或ID、重名是否区分大小写、加空格

11)检查删除功能:不选择任何信息,按Delete,看如何处理;选择一个或多个进行删除;多页选、翻页选删除;删除是否有提示

12)检查添加和修改是否一致:添加必填项,修改也该必填;添加为什么类型,修改也该什么类型

13)检查修改重名:修改时把不能重名的项改为已存在的内容

14)重复提交表单:一条已经成功提交的记录,返回后再提交

15)检查多次使用返回键:返回到原来页面,重复多次

16)搜索检查:存在或不存在内容,看搜索结果是否正确;多个搜索条件,同时输入合理和不合理条件;特殊字符

17)输入信息的位置

18)上传下载文件检查:功能是否实现,

上传:上传文件是否能打开、格式要求、系统是否有解释信息、将不能上传的文件格式修改后缀为可上传的文件格式;

下载:下载是否能打开、保存、格式要求

19)必填项检查:必填项未填写;是否有提示,如加*;对必填项提示返回后,焦点是否自动定位到必填项

20)快捷键检查:是否支持快捷键Ctrl+C、Ctrl+V、backspace;对不允许做输入的字段(如:下拉选项),对快捷方式是否也做了限制

21)Enter键检查:输入结束后按Enter键,系统如何处理

22)刷新键检查:按浏览器刷新键如何处理

23)回退键检查:按浏览器回退键如何处理

24)空格检查:输入项输入一个或多个空格

25)输入法半角全角检查:比如,浮点型,输入全角小数点“。”或“. ”,如4. 5;全角空格

26)密码检查:输入加密方式的极限字符;密码尽可能长

27)用户检查:不同种类管理员用户的不同权限,是否可以互相删除、管理、编辑;一般用户的权限;注销功能,老用户注销再注册,是否为新用户

28)系统数据检查:数据随业务过程、状态的变化保持正确,不能因为某个过程出现垃圾数据,也不能因为某个过程而丢失数据。

29)系统可恢复性检查:以各种方式把系统搞瘫,测试系统是否可以迅速恢复

30)确认提示检查:系统更新、删除操作:是否有提示、取消操作;提示是否准确;事前、事后提示

31)数据注入检查:对数据库注入,特殊字符,对sql语句进行破坏

32)时间日期检查:时间、日期、时间验证:日期范围是否符合实际业务;对于不符合实际业务的日期是否有限制

33)多浏览器验证

3、性能测试

1)压力测试:实际破坏一个Web应用系统,测试系统的反应,测试系统的限制和故障恢复能力

2)负载测试:在某一负载级别上的性能,包括某个时刻同时访问Web的用户数量、在线数据处理的数量

3)强度测试:测试对象在性能行为异常或极端条件下(如资源减少或用户过多)的可接受性,以此验证系统软硬件水平

4)数据库容量测试:通过存储过程往数据库表中插入一定数量的数据,看是否能及时显示

5)预期指标的性能测试:在需求分析和设计阶段会提出一些性能指标,对于预先确定的性能要求要首先进行测试

6)独立业务性能测试:对核心业务模块做用户并发测试,包括同一时刻进行完全一样的操作、同一时刻使用完全一样的功能

7)组合业务性能测试:模拟多用户的不同操作,最接近实际用户使用情况,按用户实际的实际使用人数比例来模拟各个模块的组合并发情况

8)疲劳强度性能测试:系统稳定运行情况下,以一定负载压力来长时间运行系统的测试

9)网络性能测试:准确展示带宽、延迟、负载、端口的变化是如何影响用户的相应时间的

10)大数据量性能测试:实时大数据量,模拟用户工作时的实时大数据量;极限状态下的测试,系统使用一段时间,积累一段数据量时能否正常运行,以及对前面两种进行结合

11)服务器性能测试:在进行用户并发性能测试、疲劳强度、大数据量性能测试时,完成对服务器性能的监控,并进行评估

12)一些特殊的测试:配置测试、内存泄漏的一些特殊测试

4、可用性测试(接口测试)

1)整体界面测试

2)多媒体测试

3)导航测试

5、客户端兼容性

平台测试:windows;unix;macintosh;linux

浏览器测试:不同厂商的浏览器对Java、Javascript、ActiveX、plug-ins或不同的HTML的规格

不同的支持;框架和层次结构在不同浏览器也不同的显示

6、安全性

安全性测试要求:

1)能够对密码试探工具进行防范

2)能够防范对Cookie攻击的常用手段

3)敏感数据保证不用明文传输

4)能防范通过文件名猜测和查看html文件内容获取重要信息

5)能保证在网站收到工具后在给定时间内恢复,重要数据丢失不超过1小时



web的性能测试工具:



随着Web2.0技术的迅速发展,许多公司都开发了一些基于Web的网站服务,通常在设计开发Web应用系统的时候很难模拟出大量用户同时访问系统的实际情况。

因此,当Web网站遇到访问高峰时,容易发生服务器响应速度变慢甚至服务中断。

为了避免这种情况,需要一种能够真实模拟大量用户访问Web应用系统的性能测试工具进行压力测试,来测试静态HTML页面的响应时间,甚至测试动态网页(包括ASP、PHP、JSP等)的响应时间,为服务器的性能优化和调整提供数据依据。


1、企业级自动化测试工具WinRunner



MercuryInteractive公司的WinRunner是一种企业级的功能测试工具,用于检测应用程序是否能够达到预期的功能及正常运行。



2、工业标准级负载测试工具Loadrunner

LoadRunner是一种预测系统行为和性能的负载测试工具



3、全球测试管理系统testdirector



TestDirector是业界第一个基于Web的测试管理系统,它可以在您公司内部或外部进行全球范围内测试的管理。



4、功能测试工具RationalRobot



IBMRationalRobot是业界最顶尖的功能测试工具,它甚至可以在测试人员学习高级脚本技术之前帮助其进行成功的测试。

它集成在测试人员的桌面IBMRationalTestManager上,在这里测试人员可以计划、组织、执行、管理和报告所有测试活动,包括手动测试报告。

这种测试和管理的双重功能是自动化测试的理想开始。



5、单元测试工具xUnit系列



目前的最流行的单元测试工具是xUnit系列框架,常用的根据语言不同分为JUnit(java),CppUnit(C++),DUnit(Delphi),NUnit(.net),PhpUnit(Php)等等。

该测试框架的第一个和最杰出的应用就是由ErichGamma(《设计模式》的作者)和KentBeck(XP(ExtremeProgramming)的创始人)提供的开放源代码的JUnit.



6、功能测试工具SilkTest



BorlandSilkTest2006属于软件功能测试工具,是Borland公司所提出软件质量管理解决方案的套件之一。

这个工具采用精灵设定与自动化执行测试,无论是程序设计新手或资深的专家都能快速建立功能测试,并分析功能错误。



7、性能测试工具WAS



是由微软的网站测试人员所开发,专门用来进行实际网站压力测试的一套工具。

透过这套功能强大的压力测试工具,您可以使用少量的Client端计算机仿真大量用户上线对网站服务所可能造成的影响。



8、自动化白盒测试工具Jtest


Jtest是parasoft公司推出的一款针对java语言的自动化白盒测试工具,它通过自动实现java的单元测试和代码标准校验,来提高代码的可靠性。

parasoft同时出品的还有C++test,是一款C/C++白盒测试工具。



9、功能和性能测试的工具JMeter



JMeter是Apache组织的开放源代码项目,它是功能和性能测试的工具,100%的用java实现。



10、性能测试和分析工具WEBLOAD



webload是RadView公司推出的一个性能测试和分析工具,它让web应用程序开发者自动执行压力测试;webload通过模拟真实用户的操作,生成压力负载来测试web的性能。



(1)web服务性能监控扩展阅读:


漏洞测试



企业网站做的越来越复杂、功能越来越强。不过这些都不是凭空而来的,是通过代码堆积起来的。如果这个代码只供企业内部使用,那么不会带来多大的安全隐患。

但是如果放在互联网上使用的话,则这些为实现特定功能的代码就有可能成为攻击者的目标。

天眼举一个简单的例子。在网页中可以嵌入SQL代码。而攻击者就可以利用这些SQL代码来发动攻击,来获取管理员的密码等等破坏性的动作。

有时候访问某些网站还需要有某些特定的控件。用户在安装这些控件时,其实就有可能在安装一个木马(这可能访问者与被访问者都没有意识到)。


为此在为网站某个特定功能编写代码时,就要主动出击。从编码的设计到编写、到测试,都需要认识到是否存在着安全的漏洞。

天眼在日常过程中,在这方面对于员工提出了很高的要求。各个员工必须对自己所开发的功能负责。

已知的病毒、木马不能够在所开发的插件中有机可乘。通过这层层把关,就可以提高代码编写的安全性。

② 如何监控web服务器主要性能指标

可以使用软件开监控,拓建试试监控宝。会详细记录服务器的数据指标

③ 如何保证Web服务器安全

不但企业的门户网站被篡改、资料被窃取,而且还成为了病毒与木马的传播者。有些Web管理员采取了一些措施,虽然可以保证门户网站的主页不被篡改,但是却很难避免自己的网站被当作肉鸡,来传播病毒、恶意插件、木马等等。笔者认为,这很大一部分原因是管理员在Web安全防护上太被动。他们只是被动的防御。为了彻底提高Web服务器的安全,笔者认为,Web安全要主动出击。具体的来说,需要做到如下几点。一、在代码编写时就要进行漏洞测试 现在的企业网站做的越来越复杂、功能越来越强。不过这些都不是凭空而来的,是通过代码堆积起来的。如果这个代码只供企业内部使用,那么不会带来多大的安全隐患。但是如果放在互联网上使用的话,则这些为实现特定功能的代码就有可能成为攻击者的目标。笔者举一个简单的例子。在网页中可以嵌入SQL代码。而攻击者就可以利用这些SQL代码来发动攻击,来获取管理员的密码等等破坏性的动作。有时候访问某些网站还需要有某些特定的控件。用户在安装这些控件时,其实就有可能在安装一个木马(这可能访问者与被访问者都没有意识到)。 为此在为网站某个特定功能编写代码时,就要主动出击。从编码的设计到编写、到测试,都需要认识到是否存在着安全的漏洞。笔者在日常过程中,在这方面对于员工提出了很高的要求。各个员工必须对自己所开发的功能负责。至少现在已知的病毒、木马不能够在你所开发的插件中有机可乘。通过这层层把关,就可以提高代码编写的安全性。二、对Web服务器进行持续的监控 冰冻三尺、非一日之寒。这就好像人生病一样,都有一个过程。病毒、木马等等在攻击Web服务器时,也需要一个过程。或者说,在攻击取得成功之前,他们会有一些试探性的动作。如对于一个采取了一定安全措施的Web服务器,从攻击开始到取得成果,至少要有半天的时间。如果Web管理员对服务器进行了全天候的监控。在发现有异常行为时,及早的采取措施,将病毒与木马阻挡在门户之外。这种主动出击的方式,就可以大大的提高Web服务器的安全性。 笔者现在维护的Web服务器有好几十个。现在专门有一个小组,来全天候的监控服务器的访问。平均每分钟都可以监测到一些试探性的攻击行为。其中99%以上的攻击行为,由于服务器已经采取了对应的安全措施,都无功而返。不过每天仍然会遇到一些攻击行为。这些攻击行为可能是针对新的漏洞,或者采取了新的攻击方式。在服务器上原先没有采取对应的安全措施。如果没有及时的发现这种行为,那么他们就很有可能最终实现他们的非法目的。相反,现在及早的发现了他们的攻击手段,那么我们就可以在他们采取进一步行动之前,就在服务器上关掉这扇门,补上这个漏洞。 笔者在这里也建议,企业用户在选择互联网Web服务器提供商的时候,除了考虑性能等因素之外,还要评估服务提供商能否提供全天候的监控机制。在Web安全上主动出击,及时发现攻击者的攻击行为。在他们采取进一步攻击措施之前,就他们消除在萌芽状态。 三、设置蜜罐,将攻击者引向错误的方向 在军队中,有时候会给军人一些伪装,让敌人分不清真伪。其实在跟病毒、木马打交道时,本身就是一场无硝烟的战争。为此对于Web服务器采取一些伪装,也能够将攻击者引向错误的方向。等到供给者发现自己的目标错误时,管理员已经锁定了攻击者,从而可以及早的采取相应的措施。笔者有时候将这种主动出击的行为叫做蜜罐效应。简单的说,就是设置两个服务器。其中一个是真正的服务器,另外一个是蜜罐。现在需要做的是,如何将真正的服务器伪装起来,而将蜜罐推向公众。让攻击者认为蜜罐服务器才是真正的服务器。要做到这一点的话,可能需要从如下几个方面出发。 一是有真有假,难以区分。如果要瞒过攻击者的眼睛,那么蜜罐服务器就不能够做的太假。笔者在做蜜罐服务器的时候,80%以上的内容都是跟真的服务器相同的。只有一些比较机密的信息没有防治在蜜罐服务器上。而且蜜罐服务器所采取的安全措施跟真的服务器事完全相同的。这不但可以提高蜜罐服务器的真实性,而且也可以用来评估真实服务器的安全性。一举两得。 二是需要有意无意的将攻击者引向蜜罐服务器。攻击者在判断一个Web服务器是否值得攻击时,会进行评估。如评估这个网站的流量是否比较高。如果网站的流量不高,那么即使被攻破了,也没有多大的实用价值。攻击者如果没有有利可图的话,不会花这么大的精力在这个网站服务器上面。如果要将攻击者引向这个蜜罐服务器的话,那么就需要提高这个蜜罐服务器的访问量。其实要做到这一点也非常的容易。现在有很多用来交互流量的团队。只要花一点比较小的投资就可以做到这一点。 三是可以故意开一些后门让攻击者来钻。作为Web服务器的管理者,不仅关心自己的服务器是否安全,还要知道自己的服务器有没有被人家盯上。或者说,有没有被攻击的价值。此时管理者就需要知道,自己的服务器一天被攻击了多少次。如果攻击的频率比较高,管理者就高兴、又忧虑。高兴的是自己的服务器价值还蛮大的,被这么多人惦记着。忧虑的是自己的服务器成为了众人攻击的目标。就应该抽取更多的力量来关注服务器的安全。四、专人对Web服务器的安全性进行测试 俗话说,靠人不如靠自己。在Web服务器的攻防战上,这一个原则也适用。笔者建议,如果企业对于Web服务的安全比较高,如网站服务器上有电子商务交易平台,此时最好设置一个专业的团队。他们充当攻击者的角色,对服务器进行安全性的测试。这个专业团队主要执行如下几个任务。 一是测试Web管理团队对攻击行为的反应速度。如可以采用一些现在比较流行的攻击手段,对自己的Web服务器发动攻击。当然这个时间是随机的。预先Web管理团队并不知道。现在要评估的是,Web管理团队在多少时间之内能够发现这种攻击的行为。这也是考验管理团队全天候跟踪的能力。一般来说,这个时间越短越好。应该将这个时间控制在可控的范围之内。即使攻击最后没有成功,Web管理团队也应该及早的发现攻击的行为。毕竟有没有发现、与最终有没有取得成功,是两个不同的概念。 二是要测试服务器的漏洞是否有补上。毕竟大部分的攻击行为,都是针对服务器现有的漏洞所产生的。现在这个专业团队要做的就是,这些已发现的漏洞是否都已经打上了安全补丁或者采取了对应的安全措施。有时候我们都没有发现的漏洞是无能为力,但是对于这些已经存在的漏洞不能够放过。否则的话,也太便宜那些攻击者了。

④ 如何通过WebView监控提升WebAPP性能

相对于需要专业移动开发人员的原生应用(Native APP),基于HTML5/CSS/JavaScript的WebAPP凭借开发者门槛低、迭代迅速、支持跨平台发布等特点,成为电商、银行等网络服务、浏览类应用的首选,然而由于页面渲染导致的性能差距是WebAPP与原生应用无法抗衡的最大原因,因此针对WebView组件的性能优化就显得至关重要。
为什么是WebView
WebAPP所显示的Web页面都是由一个叫做WebView的组件渲染出来的,每个网页都有一个链接即URL,首先将URL转换成NSURLRequest,然后用加载网页的类WebView加载Request,使用 - (void)loadRequest:(NSURLRequest *)request这个方法,就能将网页加载显示出来。
目前iOS中有两个加载网页的类,分别是UIWebView和WKWebView,UIWebView是UIKit框架中的一个类,而WKWebView是WebKit框架中的类,从性能上来说WKWebView的性能高、稳定性好、占用内存小,完全优于UIWebView。但由于WKWebView是iOS8提供的组件,因此系统版本低于iOS 8.0的iPhone/iPad用户就无法正常使用WKWebView组件开发出来的APP。所以目前大部分开发人员还在使用性能、稳定性并不理想的UIWebView进行WebAPP开发,而本文所说的云智慧透视宝WebView性能监控也是以UIWebView为主要优化目标。
要进行性能监控必须获得WebAPP页面加载全过程的性能数据,透视宝是通过向当前加载链接的html5、jsp、php网页代码中注入获取数据的JS代码,然后通过OC与JS交互,将数据传递给OC,然后再将数据整理发送到透视宝后端。
监控哪些WebView性能数据
透视宝能监控四大类数据:
行为数据:抓取用户在移动端网页点的行为操作,也就是点击网页的内容,分析用户的行为
时间相应数据:分解一个链接从加载开始到完成这段时间内,每个阶段的耗时
Ajax请求数据:抓取终端用户响应时间,响应数据下载时间,数据响应成功的callback执行时间和ajax错误数据
JS错误数据:抓取加载链接的代码错误信息
① 时间响应数据及数据计算公式
(图片来源:51cto技术博客)
参见上图,JS传给透视宝的时间响应数据就是这些字段,其中navigationStart是起点,所有的计算都需要依赖于它。分析移动端H5性能数据,其实就是测算HTML5、JSP、PHP等网页元素在iOS上加载的时间长短,通过这些性能数据前段开发人员能够准确发现性能问题并及时解决,下表是透视宝定义的响应时间分解数据及计算方案:
② 资源时序数据
每一个网页都是有很多资源组成的,包括.js、.png、.jpg、.css、script等,每一个元素的加载都需要加载时间,资源时序数据就是准确记录每一个元素的加载时间及类型,并把这些数据通过JS的performance接口直接获得并传给OC,不需要计算。
③ JS错误及ajax请求数据
JS错误指的是抓取网页代码的错误,包括错误类型及堆栈信息,直接定位错误。ajax请求的数据有请求的链接、uri、 终端用户响应时间,响应数据下载时间,数据响应成功的callback执行时间和ajax错误数据。JS错误和ajax请求数据都是有JS代码直接获取到,不需要处理。
JS代码注入
想要准确监测网页性能就需要进行代码注入,而只有拿到网页的代码才能注入, UIWebView这个类里面除了三个加载链接的方法和4个代理方法,就没有其他内容了,而这些方法并不能获取到内容,所以我们就需要考虑其他方法。UIWebView在加载拦截的时候会进入NSURLProtocol这个类,而恰好这个类能拿到当前加载链接NSURLRequest,而且会走进这个类的 - (void)startLoading方法,这个方法在页面load完成之前,页面刚加载之后,所以就是我们所需要的。
创建一个类,继承NSURLProtocol这个类,重写startLoading方法,由于能拿到链接的request,所以我们就对这个链接发送请求,用原生态的NSURLConnection或者NSURLSession都可以,我们用的NSURLConnection这个类发送请求并设置代理,方法是这个 - (nullableinstancetype)initWithRequest:(NSURLRequest*)request delegate:(nullableid)delegate startImmediately:(BOOL)startImmediately,
NSURLConnection的代理方法中有一个能接受请求链接数据的方法, - (void)connection:(NSURLConnection *)connection didReceiveData:(NSData *)data,得到的NSData是16进制的字节流数据,通过utf8转码将字节流转换成字符串,然后发现这个字符串正好是这个当前加载网页的代码,
网页代码都是由标签组成,都会有<head>这个标签,我们就把JS代码注入到<head>标签之下,放在自己添加的<script>标签中;代码实现就是获取字符串中<head>这个字符的位置,然后在其下面插入用<script>包装的js代码,然后转回成新的NSData的字节流数据。
由于页面还没有加载,我们已经改动代码了,就需要把注入JS代码的重新记载一次,需要用NSURLProtocol的代理属性NSURLProtocolClient,用NSURLProtocolClient这个中的这个方法- (void)URLProtocol:(NSURLProtocol*)protocol didLoadData:(NSData*)data,将新的NSData加载一次,转回成NSData是因为这个方法需要的是NSData数据。
当然上面只是介绍主要实现的一些方法,还需要用到NSURLConnection的其他代理方法,只是这些方法不需要添加什么,按照常规处理就行了,就不一一介绍了。
性能数据获取
加载链接过程中JS代码就会通过performance接口获取数据,然后获取的这些数据需要传给移动端,如何传递数据呢,传递数据的过程也叫OC与JS交互的过程。
获取数据的时机:
由于不清楚什么时候JS能拿到数据,所以从最开始就需要进行交互的监控,也就是加载链接的时候,因为透视宝SDK用来监控的所以我们不能直接使用这个方法,需要用到OC的运行时,动态加载机制,又叫hook。首先通过添加UIWebView的类目,添加类目是将UIWebView类的实现分散出来,每个类都是由NSbject继承下去,所以每个类都有 (void)load方法,而且这个方法的执行是最早的,我们就在这个方法中使用OC的运行时runtime,使用一个方法交换UIWebView加载链接的三个方法的指针,这样就会在执行加载方法之前执行我们交换出来的方法,在这个方法里面我们传递一个与JS匹配的标识,通过标识相同来获取数据,这样做的目的就是能从最开始就监控数据的传递。

⑤ web服务器访问缓慢,作为运维人员,如何定位故障

遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

故障的表现是什么?无响应?报错?
故障是什么时候发现的?
故障是否可重现?
有没有出现的规律(比如每小时出现一次)

最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?

基础架构(物理的、逻辑的)的文档是否能找到?
是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 New Relic…
什么都可以)
是否有日志可以查看?. (比如Loggly、Airbrake、 Graylog…)

最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。



二、有谁在?

代码如下:


$ w
$ last

用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in
the kitchen is enough.)

三、之前发生了什么?

$
history查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin要注意,不要利用自己的权限去侵犯别人的隐私哦。

到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT
环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。

四、现在在运行的进程是啥?

代码如下:


$ pstree -a
$ ps aux

这都是查看现有进程的。 ps aux 的结果比较杂乱, pstree -a 的结果比较简单明了,可以看到正在运行的进程及相关用户。

五、监听的网络服务

代码如下:


$ netstat -ntlp
$ netstat -nulp
$
netstat -nxlp

我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。netstat -nalp倒也可以。不过我绝不会用 numeric 选项
(鄙人一点浅薄的看法:IP 地址看起来更方便)。

找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

如果服务器上有好几个Java或者Erlang什么的进程在同时运行,能够按PID分别找到每个进程就很重要了。

通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。

六、CPU 和内存

代码如下:


$ free -m
$ uptime
$ top
$
htop

注意以下问题:

还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?
还有剩余的CPU吗? 服务器是几核的? 是否有某些CPU核负载过多了?

服务器最大的负载来自什么地方? 平均负载是多少?

七、硬件

代码如下:


$ lspci
$ dmidecode
$
ethtool

有很多服务器还是裸机状态,可以看一下:

找到RAID 卡 (是否带BBU备用电池?)、 CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好?
是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错?

八、IO 性能

代码如下:


$ iostat -kx 2
$ vmstat 2 10
$ mpstat
2 10
$ dstat --top-io --top-bio

这些命令对于调试后端性能非常有用。

检查磁盘使用量:服务器硬盘是否已满?
是否开启了swap交换模式 (si/so)?
CPU被谁占用:系统进程? 用户进程? 虚拟机?

dstat 是我的最爱。用它可以看到谁在进行 IO: 是不是MySQL吃掉了所有的系统资源? 还是你的PHP进程?

九、挂载点 和 文件系统

代码如下:


$ mount
$ cat /etc/fstab
$ vgs
$
pvs
$ lvs
$ df -h
$ lsof +D / /* beware not to kill your box
*/

一共挂载了多少文件系统?
有没有某个服务专用的文件系统? (比如MySQL?)
文件系统的挂载选项是什么: noatime?
default? 有没有文件系统被重新挂载为只读模式了?
磁盘空间是否还有剩余?
是否有大文件被删除但没有清空?

如果磁盘空间有问题,你是否还有空间来扩展一个分区?

十、内核、中断和网络

代码如下:


$ sysctl -a | grep ...
$ cat
/proc/interrupts
$ cat /proc/net/ip_conntrack /* may take some time on busy
servers */
$ netstat
$ ss -s

你的中断请求是否是均衡地分配给CPU处理,还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了?

SWAP交换的设置是什么?对于工作站来说swappinness 设为 60 就很好,
不过对于服务器就太糟了:你最好永远不要让服务器做SWAP交换,不然对磁盘的读写会锁死SWAP进程。

conntrack_max 是否设的足够大,能应付你服务器的流量?
在不同状态下(TIME_WAIT, …)TCP连接时间的设置是怎样的?

如果要显示所有存在的连接,netstat 会比较慢, 你可以先用 ss 看一下总体情况。
你还可以看一下 Linux TCP tuning
了解网络性能调优的一些要点。

十一、系统日志和内核消息

代码如下:


$ dmesg
$ less /var/log/messages
$
less /var/log/secure
$ less /var/log/auth

查看错误和警告消息,比如看看是不是很多关于连接数过多导致?
看看是否有硬件错误或文件系统错误?

分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。

十二、定时任务

代码如下:


$ ls /etc/cron* + cat
$ for user in
$(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done

是否有某个定时任务运行过于频繁?
是否有些用户提交了隐藏的定时任务?
在出现故障的时候,是否正好有某个备份任务在执行?

十三、应用系统日志

这里边可分析的东西就多了,
不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题,比如在一个典型的LAMP(Linux+Apache+Mysql+Perl)应用环境里:

Apache & Nginx; 查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。
MySQL;
在mysql.log找错误消息,看看有没有结构损坏的表, 是否有innodb修复进程在运行,是否有disk/index/query 问题.

PHP-FPM; 如果设定了 php-slow 日志, 直接找错误信息 (php, mysql, memcache, …),如果没设定,赶紧设定。

Varnish; 在varnishlog 和 varnishstat 里, 检查 hit/miss比.
看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端?
HA-Proxy;
后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?

结论

经过这5分钟之后,你应该对如下情况比较清楚了:

在服务器上运行的都是些啥?
这个故障看起来是和 IO/硬件/网络 或者 系统配置 (有问题的代码、系统内核调优, …)相关。

这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。

你甚至有可能找到真正的故障源头。就算还没有找到,搞清楚了上面这些情况之后,你现在也具备了深挖下去的条件。继续努力吧!

⑥ 利用Windows自带的性能监视器对WebService服务进行监控,通常使用哪些计数器,标准值是什么

  • 1. 处理器对象(Processor Object)

  • 一条经验规则是不要使你所监控的每个处理器的C P U使用率高于9 0%。峰值超过9 0%是可以接受的,但平均使用率超过9 0%则是应该避免的。

    • 处理器时间百分比(%Processor Time) 处理器执行一个非空闲线程的时间百分比。用%1 0 0减去处理器空闲的总时间得出这个值。这是整个系统的C P U使用的一个好的指示器。

    • 特权时间百分比(%Privileged Time) 处理器用于在特权模式下(即,执行操作系统功能和运行驱动器,如I / O )工作时间的百分比。这个时间包括C P U (或C P U )用于维护中断和延迟过程调用( D P C )的时间。

    • 用户时间百分比(%User Time) 处理器用于在用户模式工作的时间百分比。这种类型的工作是由应用产生的。通常,希望极大化用户时间百分比的值,极小化特权时间百分比的值。

    • 中断时间百分比(%Interrupt Time) CPU忙于维护硬件中断的时间百分比。系统中的许多硬件部件,如鼠标、网络接口卡或磁盘控制器,都可以发出处理器中断。你可以将中断看作为Windows NT正常操作的一部分发生。

    • 中断数/秒(Interrupts/sec) 处理器每秒接收并处理的硬件中断的数量。它不包括系统

    D P C,系统D P C单独计数。

  • 2. 系统对象(System Object)

  • 系统对象与它的相关计数器衡量处理器上运行的线程的总计数据。虽然使用这些计数器不能观察一个特定处理器的工作负载或一个特定线程的行为,但它们提供了有关整个系统性能有价值的内部信息。系统计数器如下所示:

    • 处理器队列长度(Processor Queue Length) 处理器队列中的线程的数量。换句话说,它

    是等待运行的线程数。即使你的系统具有多个处理器,但只有一个队列用于处理器时间。计数器只记录那些准备执行但仍处于等待的线程,不是那些正在运行的线程。

    • 环境切换/秒(Context Switches/sec) 系统上的所有处理器从一个线程切换到另一个线程的组合比率。当一个正在运行的线程自动地放弃处理器,处理器由一个高优先级的待命线程抢占时发生环境切换,或在用户模式和特权(核心)模式之间切换,以使用一个执行或子系统的服务。这是线程的总和:计算机上运行在所有处理器上的所有线程的环境切换数/秒。

  • 3. SQL Server:缓冲区管理器对象( B u ffer Manager Object)

  • 缓冲区管理器计数器提供了SQL Server使用的内存缓冲区的有关信息。这些计数器如下所示:

    • 高速缓存命中率( B u ffer Cache Hit Ratio) 引用当前位于高速缓存中页的需求的百分率。预先在内存中拥有页,允许SQL Server避免请求从磁盘子系统执行一次物理I / O。因为访问内存相对于访问物理I / O,代价更小,一个高的缓冲区高速缓存命中率增强了系统的性能与吞吐量。如果你的系统很好地调整过,这个命中率应该是8 0%或更高。如果具有一个低的缓冲区高速缓存命中率,你应该为SQL Server分配更多的内存。如果你已将现有的所有内存都分配给了SQL Server,那么需要增加系统中物理内存的数量。

    • 高速缓存大小(页)(Cache Size) 在SQL Server缓冲区高速缓存中的页的数量。这个数量乘以8 K B,即可得到正在使用的以千字节为单位的缓存数。

    • 空闲缓冲区(Free Buffer) 空闲SQL Server内存缓冲区的数量。

    • 读的页/秒(Page Reads/sec) 每秒请求的物理数据页I / O的数量。

    • 偷取的页计数(Stolen Page Count) SQL Server用于缓冲区高速缓存的页数,这些内存被给予系统中的另外一个进程。Windows NT回收这个内存以满足其他系统部件的需要。

    • 写的页/秒(Page Writes/sec) 由SQL Server执行的每秒写的物理数据页的数量。

  • 4. SQL Server:数据库对象(Database Object)

  • 数据库对象计数器提供了有关SQL Server数据库的信息,包括可用的空闲日志空间量和数据库中活动事务的数量。对于系统中的每个数据库的每个计数器有一个实例。这些计数器包括如下:

    • 日志刷新等待/秒(Log Flush Wait/sec) 在能够继续执行前,必须等待日志刷新的数据库提交数量。

    • 日志使用的百分比(Percent Log Used) SQL Server实际使用的当前定义的日志空间的百分比。

  • 5. SQL Server:常规统计对象(General Statistics Object)

  • 常规统计对象含有常规服务器范围活动的有关信息,它有一个计数器:

    • 用户连接数(User Connections) 系统中用户连接的当前数量。

  • 6. SQL Server:闩对象(Latches Object)

  • 这个对象计数器提供了在内部SQL Server资源中有效的闩的信息。计数器如下:

    • 平均闩等待时间(毫秒) ( Average Latch Wait Time) 闩请求在得到服务之前必须等待的平均时间,以毫秒为单位。

    • 闩等待数/秒(Latch Waits/sec) 不能立即服务,被迫等待其他资源释放的闩请求的数量。

  • 7. SQL Server:锁对象(Locks Object)

  • 锁对象提供了由SQL Server提出的各个锁请求的有关数据,例如锁生命周期和死锁。可以在系统上具有多个这些计数器的实例。计数器如下所示:

    • 平均等待时间(毫秒) ( Average Wait Time) 每个锁请求被迫等待的平均时间量,以毫秒为单位。

    • 锁到期数/秒(Lock Timeouts/sec) 在系统中过期的锁请求的数量。

    • 锁等待数/秒(Lock Wa i t s / s e c )不能立即满足,需要调用线程在给予锁之前处于等待状态的锁请求的数量。

    • 死锁数/秒(Number of Deadlocks/sec) 导致产生死锁的锁请求的数量。

  • 8. SQL Server:内存管理器对象(Memory Manager Object)

  • 内存管理器对象含有有关SQL Server内存使用的信息,包括SQL Server正在使用的高速缓

    存内存的数量。这个对象下的计数器如下所示:

    • 内存授权挂起(Memory Grants Pending) 等待授予工作空间内存的进程的当前数量。

    • S Q L高速缓存内存(KB)(SQL Cache Memory) SQL Server用于动态SQL 高速缓存的动态

    内存数量。

    • 目标服务器内存( K B ) ( Ta rget Server Memory) SQL Server将会消耗的动态内存的总额。

    • 总的服务器内存( K B ) ( Total Server Memory) SQL Server当前消耗的动态内存的总额。

  • 9. SQL Server:S Q L统计对象(SQL Statistics Object)

  • 这个对象提供了系统上正在执行的S Q L查询的有关信息,包括查询编译和重新编译的数量的数据。它有如下计数器:

    • 批请求/秒(Batch Requests/sec) 服务器接收到的S Q L批请求的数量。

    • SQL 编译/秒(SQL Compilations/sec) SQL Server每秒执行的S Q L语句编译的数量。

    • S Q L重新编译/秒(SQL Re-Compilations/sec) SQL Server每秒执行的S Q L语句重新编译的数量。

  • 10. 逻辑磁盘对象(Logical Disk Object)

  • 逻辑磁盘对象提供了有关逻辑磁盘I / O性能的信息。逻辑磁盘计数器与Windows NT磁盘

    系统管理员分配给逻辑磁盘驱动器的字母相关。这个对象含有如下计数器:

    • 磁盘读时间百分比(%Disk Read Time) 选中的逻辑磁盘忙于服务读请求总共用去时间的

    百分比。

    • 磁盘写时间百分比(%Disk Write Time) 选中的逻辑磁盘忙于服务写请求总共用去时间

    的百分比。

    • 磁盘时间百分比(%Disk Time) 选中的逻辑磁盘忙于服务读请求或写请求总共用的时间

    的百分比,是磁盘写时间百分比与磁盘读时间百分比的和。

    • 空闲时间百分比(%Idle Time) 逻辑磁盘在采样时间间隔中处于空闲状态的时间百分比。

    • 平均磁盘队列长度( Avg. Disk Queue Length) 在采样的时间间隔中,选中的逻辑磁盘读请求和写请求排队的平均数量。

    • 平均磁盘读队列长度( Avg. Disk Read Queue Length) 在采样的时间间隔中,对选中的逻辑磁盘读请求排队的平均数量。

    • 平均磁盘写队列长度( Avg. Disk Write Queue Length) 在采样的时间间隔中,对选中的逻辑磁盘写请求排队的平均数量。

    • 平均磁盘秒数/读( Avg. Disk sec/Read) 从逻辑磁盘读数据的平均时间,以秒为单位。

    • 平均磁盘秒数/写( Avg. Disk sec/Write) 向逻辑磁盘写数据的平均时间,以秒为单位。

    • 平均磁盘秒数/传输( ( Avg. Disk sec/Transfer) 从逻辑磁盘进行传输的平均时间,以秒为单位。

    • 磁盘读/秒(Disk Reads Bytes/sec) 逻辑磁盘上每秒读字节。

    • 磁盘读/秒(Disk Writes Bytes/sec) 逻辑磁盘上每秒写字节。

    • 磁盘读/秒(Disk Reads/sec) 逻辑磁盘上的读操作比率。

    • 磁盘写/秒(Disk Writes/sec) 逻辑磁盘上的写操作比率。

    • 磁盘传输/秒(Disk Transfers/sec) 逻辑磁盘上的读和写操作的比率。

  • 11. 物理磁盘对象(PhysicalDisk Object)

  • 物理磁盘对象提供了有关物理磁盘I / O性能的信息。它的磁盘计数器与系统中的物理驱动器有关,并且只有当运行了D i s k P e r f服务时,它才被激活。这个对象下的计数器如下所示:

    • 磁盘读时间百分比(%Disk Read Time) 选中的物理磁盘忙于服务读请求总共用的时间的百分比。

    • 磁盘写时间百分比(%Disk Write Time) 选中的物理磁盘忙于服务写请求总共用的时间的百分比。

    • 磁盘时间百分比(%Disk Time) 选中的物理磁盘忙于服务读请求或写请求总共用的时间的百分比,是磁盘写时间百分比与磁盘读时间百分比的和。

    • 空闲时间百分比(%Idle Time) 物理磁盘在采样时间间隔中处于空闲状态的时间百分比。

    • 平均磁盘队列长度( Avg. Disk Queue Length) 在采样的时间间隔中,选中的物理磁盘读请求和写请求排队的平均数量。

    • 平均磁盘读队列长度( Avg. Disk Read Queue Length) 在采样的时间间隔中,选中的物理磁盘读请求排队的平均数量。

    • 平均磁盘写队列长度( Avg. Disk Write Queue Length) 在采样的时间间隔中,选中的物理磁盘写请求排队的平均数量。

    • 平均磁盘秒数/读( Avg. Disk sec/Read) 从物理磁盘读数据的平均时间,以秒为单位。

    • 平均磁盘秒数/写( Avg. Disk sec/Write) 向物理磁盘写数据的平均时间,以秒为单位。

    • 平均磁盘秒数/传输( Avg. Disk sec/Transfer) 从物理磁盘进行传输的平均时间,以秒为单位。

    • 磁盘读/秒(Disk Reads Bytes/sec) 物理磁盘上每秒读字节。

    • 磁盘读/秒(Disk Writes Bytes/sec) 物理磁盘上每秒写字节。

    • 磁盘读/秒(Disk Reads/sec) 物理磁盘上的读操作比率。

    • 磁盘写/秒(Disk Writes/sec) 物理磁盘上的写操作比率。

    • 磁盘传输/秒(Disk Transfers/sec) 物理磁盘上的读和写操作的比率。

  • 12. 内存

  • 内存在任何系统中都是一个非常有价值的资源。Windows NT不只允许过量使用内存,而且鼓励你过量使用内存。Windows NT提供了一种透明机制,允许应用“相信”它们具有比系统中可用的物理内存更多的内存。当Windows NT处理应用时,它将不使用的内存页调出(交换出)到磁盘上的页文件中。在大多数系统中,页调度是正常的,但过量的页调度会削弱整个系统的性能。下面的计数器允许你监控系统的页调度。

    • 失效的页/秒(Page Faults/sec) 每秒由处理器处理的失效页的全部数量。当一个进程需

    要的代码或数据不在它的工作区(它的空间在物理内存中)中时,发生失效页。这个计数

    器包括硬的页失效(那些需要磁盘访问的)和软的页失效(在物理内存的其他地方发现了失

    效页)。

    • 读的页/秒(Page Reads/sec) 读取磁盘以解决硬的页失效所需要的时间数(当一个进程需要的代码或数据不在其工作区或内存中的其他地方,必须从磁盘提取这些代码和数据时,发生硬的页失效)。这个计数器包括为满足在文件系统高速缓存(通常是应用请求的)以及在非高速缓存映像内存文件中的失效而进行的读。

    • 写的页/秒(Page Writes/sec) 将页写向磁盘以释放物理内存空间的时间数。只有当页在物理内存中被改变的时候,将页写入磁盘,这样,它们更有可能含有数据,而不是代码。

    • 页/秒(Pages/sec) 为解决硬的页失效,所需要读或写磁盘的时间数。它是读的页/秒与写的页/秒的计数器的和。

⑦ 如何用java实现web服务器的监控

Hyperic HQ集成了强大的监测和管理功能,它有开源版本,您可以直接使用它用来对web服务器进行监控。
如果您想自己写代码实现,Hyperic HQ提供了一个服务器各种性能指标采集的API,这个API包本身提供了各种平台(linux/MAC/window等)的兼容。