‘壹’ rv260w设置
配置端口设置
第 1 步
登录Web配置实用程序并导航至LAN > Port Settings。
在本文中,我们将使用RV160配置端口设置。配置可能因您所使用的型号而异。有关访问Web配置实用程序页面的详细信息,请单击此处。
在端口表区域,端口字段列出路由器上当前可用的端口。
步骤 2
要修改端口标签,请在端口标签字段中输入新的标签。在本例中,LAN1的默认端口标签保留。
步骤 3
选中启用复选框以启用端口设置。如果未选中启用框,则不应用端口设置。
步骤 4
选中以太网节能(EEE)复选框,以允许端口在低数据活动期间消耗较少的功率。
步骤 5
流量控制功能允许接收设备向发送设备发送拥塞信号。这会告知发送设备暂时停止传输,以帮助缓解拥塞。如果要启用流控制,请选中该复选框。
步骤 6
在Mode字段中,从下拉列表中选择端口设置模式。您可以在此配置速度和双工,即数据传输方式。全双工模式表示设备之间的数据传输可以同时沿两个方向传输。半双工允许通信双向,但一次只有一个方向。除非您的其他设备没有自动协商功能,否则建议使用自动协商。如果是这样,您可以手动选择它支持的速度和双工。选项有:
自动协商(千兆) — 设备与连接的设备自动协商连接速度和双工模式。
10Mbps半 — 两个方向为10 Mbps,但一次只有一个方向。
满10Mbps — 两个方向同时为10 Mbps。
100Mbps半 — 两个方向为100Mbps,但一次只有一个方向。
满100Mbps — 两个方向同时为100 Mbps。
在本例中,选择“自动协商(千兆)”。
步骤 7(可选)
巨型帧是负载超过1500字节的以太网帧,这是IEEE 802.3标准所设置的限制。巨型帧最多可承载9000字节的负载。某些软件会使用它来移动大数据块(大文件副本),因为它更高效。如果要启用巨型帧,请选中启用复选框。
通常,巨型帧流量首选具有自己的VLAN,以便能够与其他流量隔离。单击超链接以了解SG200/300系列托管交换机上的ICMP巨帧的防御。
步骤 8(可选)
端口镜像通常用于需要监控网络流量的网络设备。它会将一个端口上发现的网络数据包的副本发送到另一个端口上的网络监控连接。如果要启用端口镜像配置,请选中启用复选框。
步骤 9(可选)
选择将监控源端口流量的目标端口。从下拉列表中选择一个LAN端口(LAN1到LAN4)。在本例中,我们将选择LAN3。
步骤 10(可选)
选择在目标端口上监控流量的端口。
无法选择要监控的目标端口。
步骤 11(可选)
此步骤仅适用于RV260。如果要配置链路聚合组(LAG),请选择2-4个LAN端口以聚合为一个LAG。LAG可增加带宽,提高端口灵活性,并在两个设备之间提供链路冗余。在本示例中,我们选择LAN7和LAN8作为LAG1的一部分。请确保连接到LAN7和LAN8的其他设备也配置了LAG。
本示例中使用了RV260W。将作为LAG一部分的端口上的所有现有配置都将丢失。LAG将覆盖端口配置。
Link State字段将显示LAG的链路是活动链路还是关闭链路。
步骤 12
单击 apply 保存更改。
结论
现在,您应该已成功配置RV160或RV260路由器上的端口设置。
‘贰’ 如何为大数据处理构建高性能Hadoop集群
越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在。
关于Hadoop
“大数据”是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理。大数据是结构化或非结构化的多种数据类型的大集合。而 Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管理处理的形式。Hadoop使得对大数据处理成为可能,并能够帮助企业可从客户数据之中发掘新的商机。如果能够进行实时处理或者接近实时处理,那么其将为许多行业的用户提供强大的优势。
Hadoop是基于谷歌的MapRece和分布式文件系统原理而专门设计的,其可在通用的网络和服务器硬件上进行部署,并使之成为计算集群。
Hadoop模型
Hadoop的工作原理是将一个非常大的数据集切割成一个较小的单元,以能够被查询处理。同一个节点的计算资源用于并行查询处理。当任务处理结束后,其处理结果将被汇总并向用户报告,或者通过业务分析应用程序处理以进行进一步分析或仪表盘显示。
为了最大限度地减少处理时间,在此并行架构中,Hadoop“moves jobs to data”,而非像传统模式那样“moving data to jobs”。这就意味着,一旦数据存储在分布式系统之中,在实时搜索、查询或数据挖掘等操作时,如访问本地数据,在数据处理过程中,各节点之间将只有一个本地查询结果,这样可降低运营开支。
Hadoop的最大特点在于其内置的并行处理和线性扩展能力,提供对大型数据集查询并生成结果。在结构上,Hadoop主要有两个部分:
Hadoop分布式文件系统(HDFS)将数据文件切割成数据块,并将其存储在多个节点之内,以提供容错性和高性能。除了大量的多个节点的聚合I/O,性能通常取决于数据块的大小——如128MB。而传统的Linux系统下的较为典型的数据块大小可能是4KB。
MapRece引擎通过JobTracker节点接受来自客户端的分析工作,采用“分而治之”的方式来将一个较大的任务分解成多个较小的任务,然后分配给各个TaskTrack节点,并采用主站/从站的分布方式(具体如下图所示):
Hadoop系统有三个主要的功能节点:客户机、主机和从机。客户机将数据文件注入到系统之中,从系统中检索结果,以及通过系统的主机节点提交分析工作等。主机节点有两个基本作用:管理分布式文件系统中各节点以及从机节点的数据存储,以及管理Map/Rece从机节点的任务跟踪分配和任务处理。数据存储和分析处理的实际性能取决于运行数据节点和任务跟踪器的从机节点性能,而这些从机节点则由各自的主机节点负责沟通和控制。从节点通常有多个数据块,并在作业期间被分配处理多个任务。
部署实施Hadoop
各个节点硬件的主要要求是市县计算、内存、网络以及存储等四个资源的平衡。目前常用的并被誉为“最佳”的解决方案是采用相对较低成本的旧有硬件,部署足够多的服务器以应对任何可能的故障,并部署一个完整机架的系统。
Hadoop模式要求服务器与SAN或者NAS进行直接连接存储(DAS)。采用DAS主要有三个原因,在标准化配置的集群中,节点的缩放数以千计,随着存储系统的成本、低延迟性以及存储容量需求不断提高,简单配置和部署个主要的考虑因素。随着极具成本效益的1TB磁盘的普及,可使大型集群的TB级数据存储在DAS之上。这解决了传统方法利用SAN进行部署极其昂贵的困境,如此多的存储将使得Hadoop和数据存储出现一个令人望而却步的起始成本。有相当大一部分用户的Hadoop部署构建都是采用大容量的DAS服务器,其中数据节点大约1-2TB,名称控制节点大约在1-5TB之间,具体如下图所示:
来源:Brad Hedlund, DELL公司
对于大多数的Hadoop部署来说,基础设施的其他影响因素可能还取决于配件,如服务器内置的千兆以太网卡或千兆以太网交换机。上一代的CPU和内存等硬件的选择,可根据符合成本模型的需求,采用匹配数据传输速率要求的千兆以太网接口来构建低成本的解决方案。采用万兆以太网来部署Hadoop也是相当不错的选择。
万兆以太网对Hadoop集群的作用
千兆以太网的性能是制约Hadoop系统整体性能的一个主要因素。使用较大的数据块大小,例如,如果一个节点发生故障(甚至更糟,整个机架宕机),那么整个集群就需要对TB级的数据进行恢复,这就有可能会超过千兆以太网所能提供的网络带宽,进而使得整个集群性能下降。在拥有成千上万个节点的大型集群中,当运行某些需要数据节点之间需要进行中间结果再分配的工作负载时,在系统正常运行过程中,某个千兆以太网设备可能会遭遇网络拥堵。
每一个Hadoop数据节点的目标都必须实现CPU、内存、存储和网络资源的平衡。如果四者之中的任意一个性能相对较差的话,那么系统的潜在处理能力都有可能遭遇瓶颈。添加更多的CPU和内存组建,将影响存储和网络的平衡,如何使Hadoop集群节点在处理数据时更有效率,减少结果,并在Hadoop集群内添加更多的HDFS存储节点。
幸运的是,影响CPU和内存发展的摩尔定律,同样也正影响着存储技术(TB级容量的磁盘)和以太网技术(从千兆向万兆甚至更高)的发展。预先升级系统组件(如多核处理器、每节点5-20TB容量的磁盘,64-128GB内存),万兆以太网卡和交换机等网络组件是重新平衡资源最合理的选择。万兆以太网将在Hadoop集群证明其价值,高水平的网络利用率将带来效益更高的带宽。下图展示了Hadoop集群与万兆以太网的连接:
许多企业级数据中心已经迁移到10GbE网络,以实现服务器整合和服务器虚拟化。随着越来越多企业开始部署Hadoop,他们发现他们完全不必要大批量部署1U的机架服务器,而是部署更少,但性能更高的服务器,以方便扩展每个数据节点所能运行的任务数量。很多企业选择部署2U或4U的服务器(如戴尔 PowerEdge C2100),每个节点大约12-16个核心以及24TB存储容量。在这种环境下的合理选择是充分利用已经部署的10GbE设备和Hadoop集群中的 10GbE网卡。
在日常的IT环境中构建一个简单的Hadoop集群。可以肯定的是,尽管有很多细节需要微调,但其基础是非常简单的。构建一个计算、存储和网络资源平衡的系统,对项目的成功至关重要。对于拥有密集节点的Hadoop集群而言,万兆以太网能够为计算和存储资源扩展提供与之相匹配的能力,且不会导致系统整体性能下降。
‘叁’ 大数据之点聚合算法
在地图上查询结果通常以标记点的形式展现,但是如果标记点较多,不仅会大大增加客户端的渲染时间,让客户端变得很卡,而且会让人产生密集恐惧症(图1)。为了解决这一问题,我们需要一种手段能在用户有限的可视区域范围内,利用最小的区域展示出最全面的信息,而又不产生重叠覆盖。
直接距离法,数据量大的话数据会比较慢,聚合效果也不太真实
这里直接选用网格距离法
1、网格法,聚合出所要的点
2、直接距离法,进一步聚合
‘肆’ 配置链路聚合有哪些条件
聚合的端口要有相同的双工模式,相同的速率,若是access端口,pvid要一致,若是802.1q端口,要求聚合的端口都是trunk,且允许通过的vlan范围一致。
‘伍’ 大数据处理的基本流程
大数据处理的基本流程分三步,如下:
1.数据抽取与集成
由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据, 包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体, 经过关联和聚合等操作,按照统一定义的格式对数据进行存储。 用户可以通过上述数据库来进行简单的查询和处理。
3.数据解释
数据处理的结果是大数据处理流程中用户最关心的问题,正确的数据处理结果需要通过合适的展示方式被终端用户正确理解。数据解释的主要技术是可视化和人机交互。
‘陆’ 大数据平台建设有哪些步骤以及需要注意的问题
大数据平台的搭建步骤:
1、linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。
2、分布式计算平台/组件安装
国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等
使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务‘当然还需要手动做更新操作’。4)因为代码开源,若出bug可自由对源码作修改维护。
3、数据导入
数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台‘一般主要导入到Hive,也可将数据导入到Hbase’。
4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive sql,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速‘ms级别’的行查找。 ElasticSearch可以实现列索引,提供快速列查找。
大数据平台搭建中的主要问题
1、稳定性 Stability
理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。
2、可扩展性 Scalability
如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中,有时需要增减机器来满足新的需求。如何在保留原有功能的情况下,快速扩充平台是实际应用中的常见问题。
‘柒’ 大数据专业用什么配置笔记本够用
您好,小米笔记本 RedmiBook Pro 14 采用的是 AMD 的锐龙处理器,有两个选择,R5的5500和R7的5700。两款都是使用了16GB的内存和512GB的PCIe固态硬盘。
由于大数据专业会使用到数据库,而数据库又是一个庞大的数据中心,会很长在短时间内运行一系列的筛选功能进行数据库的优化,所以对于机子的运算能力有较高的要求,因此内存、储存的容量和速度也很关键;但对于显卡和屏幕的要求就不高了。
所以个人会建议您要是考虑买 RedmiBook Pro 14 这个笔记本电脑,考虑买 R7的5700 处理器版本,先暂时使用。假如感觉速度不够快,或是数据库过大时,可以后期再添加16GB的内存,达到32GB(最好买机子是1条16GB的内存条,而不是2条8GB,否者将来添加内存时,需要买2条16GB的,替换掉2条8GB的内存条,而不是只是买1条16GB)。假如储存空间不够,将来可以更换到1T或是2T的固态硬盘,然后把机子里面的拔出来做成外置的固态硬盘使用。
‘捌’ 大数据之-HIVE入门(十四)
当join时有一个或多个小表可以装载进内存时可以使用mapjoin完成。
第一种方法是可以加上mapjoin指示
第二种方法是设置 set hive.auto.convert.join=true;来让hive自动优化。同时可以指定
set hive.auto.convert.join.noconditionaltask = true; --默认开启
set hive.auto.convert.join.noconditionaltask.size = 10000000; --默认10M,可以根据需求做调整。
hive.mapjoin.smalltable.filesize= 2500000;--早期hive版本小表文件大小设置默认25M。
当数据量比较大启动mapjoin后会造成问题请关闭
set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 True ;
set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目
1、在关联操作前尽量减小数据集,能先聚合的先聚合、能过滤的先过滤(如设置查询条件、合理设置分区,有分区必须设置分区范围)。
2、关联时数据类型要做到一致,如果不一致请用cast先转换类型。
3、慎用count(distinct) ,容易产生数据倾斜,可以先group by 再count。
4、减少小文件,合理设置输入文件大小、合理设置map job 、rece job数。
set hive.merge.mapredfiles=true;--设置合并map文件标识。
set mapred.max.split.size=100000000; --设置最大输入文件大小,大于此数值都会进行拆分。
set mapred.min.split.size.per.node=100000000;--设置每个节点可处理的最小值。
set mapred.min.split.size.per.rack=100000000;--设置每个机架可处理的最小值。
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; – 执行前进行小文件合并。
set mapred.rece.tasks=10; -- 设置rece的数量
set hive.exec.recers.bytes.per.recer=1073741824 --设置每个rece所处理的数据大小
5、选取字段避免用select * ,只引用你要用的字段,如select a.uid,a.price。
6、关联值有null值的情况下,可以将null值过滤出来单独处理或者将null值随机赋值。当存在某key有热点问题,也可以同样处理。
7、合理设置数据模型、文件存储格式有利于查询效率优化。
8、善用union all 合并对于同一个表的查询,有利于整体提高效率。
9、合理使用中间临时表,数据量巨大时,如统计一年的数据,可先小规模聚合如按月聚合生成中间表,最后再合并统计出结果。
10、有order by 要限制输出条数。
11、合理设置并行查询
set hive.exec.parallel= true ; --以开启并发执行。
set hive.exec.parallel.thread.number= 10 ; //同一个sql允许最大并行度,默认为8。
‘玖’ 大数据数仓项目架构
云上数据仓库解决方案: https://www.aliyun.com/solution/datavexpo/datawarehouse
离线数仓架构
离线数仓特点
基于Serverless的云上数据仓库解决方案
架构特点
实时数仓架构
[图片上传失败...(image-ec3d9a-1629814266849)]
实时数仓架构特点
秒级延迟,实时构建数据仓库,架构简单,传统数仓平滑升级
架构特点
数据仓库的输入数据源和输出系统分别是什么?
输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。
输出系统:报表系统、用户画像系统、推荐系统
1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)10000美金一个节点 CDP
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
服务器使用物理机还是云主机?
1)机器成本考虑:
(1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。一般物理机寿命5年左右。
(2)云主机,以阿里云为例,差不多相同配置,每年5W
2)运维成本考虑:
(1)物理机:需要有专业的运维人员(1万*13个月)、电费(商业用户)、安装空调
(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松
3)企业选择
(1)金融有钱公司和阿里没有直接冲突的公司选择阿里云(上海)
(2)中小公司、为了融资上市,选择阿里云,拉倒融资后买物理机。
(3)有长期打算,资金比较足,选择物理机。
根据数据规模大家集群
属于 研发部 /技术部/数据部,我们属于 大数据组 ,其他还有后端项目组,前端组、测试组、UI组等。其他的还有产品部、运营部、人事部、财务部、行政部等。
大数据开发工程师=>大数据组组长=》项目经理=>部门经理=》技术总监
职级就分初级,中级,高级。晋升规则不一定,看公司效益和职位空缺。
京东:T1、T2应届生;T3 14k左右 T4 18K左右 T5 24k-28k左右
阿里:p5、p6、p7、p8
小型公司(3人左右):组长1人,剩余组员无明确分工,并且可能兼顾javaEE和前端。
中小型公司(3~6人左右):组长1人,离线2人左右,实时1人左右(离线一般多于实时),组长兼顾和javaEE、前端。
中型公司(5 10人左右):组长1人,离线3 5人左右(离线处理、数仓),实时2人左右,组长和技术大牛兼顾和javaEE、前端。
中大型公司(10 20人左右):组长1人,离线5 10人(离线处理、数仓),实时5人左右,JavaEE1人左右(负责对接JavaEE业务),前端1人(有或者没有人单独负责前端)。(发展比较良好的中大型公司可能大数据部门已经细化拆分,分成多个大数据组,分别负责不同业务)
上面只是参考配置,因为公司之间差异很大,例如ofo大数据部门只有5个人左右,因此根据所选公司规模确定一个合理范围,在面试前必须将这个人员配置考虑清楚,回答时要非常确定。
IOS多少人 安卓多少人 前端多少人 JavaEE多少人 测试多少人
(IOS、安卓) 1-2个人 前端1-3个人; JavaEE一般是大数据的1-1.5倍,测试:有的有,有的没有。1个左右。 产品经理1个、产品助理1-2个,运营1-3个
公司划分:
0-50 小公司
50-500 中等
500-1000 大公司
1000以上 大厂 领军的存在
转自: https://blog.csdn.net/msjhw_com/article/details/116003357
‘拾’ 大数据之Tez搭建与使用
Tez是一个Hive的运行引擎,性能优于MR
Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能
首先启动zk和hdfs
添加
pom.xml
启动hive
视频表结构
用户表结构
思路:使用order by按照views字段做一个全局排序即可,同时我们设置只显示前10条。
(1)即统计每个类别有多少个视频,显示出包含视频最多的前10个类别。
(2)我们需要按照类别group by聚合,然后count组内的videoId个数即可。
(3)因为当前表结构为:一个视频对应一个或多个类别。所以如果要group by类别,需要先将类别进行列转行(展开),然后再进行count即可。
(4)最后按照热度排序,显示前10条。
(1)先找到观看数最高的20个视频所属条目的所有信息,降序排列
(2)把这20条信息中的category分裂出来(列转行)
(3)最后查询视频分类名称和该分类下有多少个Top20的视频
(1)要想统计Music类别中的视频热度Top10,需要先找到Music类别,那么就需要将category展开,所以可以创建一张表用于存放categoryId展开的数据。
(2)向category展开的表中插入数据。
(3)统计对应类别(Music)中的视频热度。
(1)求出上传视频最多的10个用户
(2)关联gulivideo_orc表,求出这10个用户上传的所有的视频,按照观看数取前20