‘壹’ 国泰安数据库内想分析某一个地区几个公司之间的数据,进行回归模型建立应如何操作
要进行回归模型建立,需要进行以下操作:
获取需要分析的地区和公司的相关数据,包括经济李如数据、财务数据、人口数据等。
对数据进行清洗和预处理,包括去除异常值、缺失值填充等。
选择适当的回归模型,比如线性回归模型、逻辑回归模型、岭回归模型等。
对数据进行猜迹拟合和训练,使用机器学习算法和统计方法对回归模型进行优化和调整。
进行模型评估和验证,包括拟合度、误差率、预测准确性等指标的计算和分析。
最终利用模型进行预测和决策,为相关企业提供营销策略和经营建议。
在国泰安数据库中,可以利用数哪兆启据查询和数据分析工具进行上述操作,比如sql查询、Python编程、SPSS软件等。需要根据具体的需求和数据特点进行选择和调整。
‘贰’ 技术解析Transwarp Inceptor是怎样炼成的
技术解析Transwarp Inceptor是怎样炼成的
当前Hadoop技术蓬勃发展,用于解决大数据的分析难题的技术平台开始涌现。Spark凭借性能强劲、高度容错、调度灵活等技术优势已渐渐成为主流技术,业界大部分厂商都提供了基于Spark的技术方案和产品。根据Databricks的统计,目前有11个商业的Spark版本。
在使用Spark作出计算平台的解决方案中,有两种主流编程模型,一类是基于SparkAPI或者衍生出来的语言,另一种是基于SQL语言。SQL作为数据库领域的事实标准语言,相比较用API(如MapReceAPI,SparkAPI等)来构建大数据分析的解决方案有着先天的优势:一是产业链完善,各种报表工具、ETL工具等可以很好的对接;二是用SQL开发有更低的技术门槛;三是能够降低原有系统的迁移成本等。因此,SQL语言也渐渐成为大数据分析的主流技术标准。本文将深入解析Inceptor的架构、编程模型和编译优化技术,并提供基准测试在多平台上的性能对比数据。
1.Inceptor架构
TranswarpInceptor是基于Spark的分析引擎,如图1所示,从下往上有三层架构:最下面是存储层,包含分布式内存列式存储(TranswarpHolodesk),可建在内存或者SSD上;中间层是Spark计算引擎层,星环做了大量的改进保证引擎有超强的性能和高度的健壮性;最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库,提供完整的R语言访问接口。
TranswarpInceptor可以分析存储在HDFS、HBase或者TranswarpHolodesk分布式缓存中的数据,可以处理的数据量从GB到数十TB,即使数据源或者中间结果的大小远大于内存容量也可高效处理。另外TranswarpInceptor通过改进Spark和YARN的组合,提高了Spark的可管理性。同时星环不仅仅是将Spark作为一个缺省计算引擎,也重写了SQL编译器,提供更加完整的SQL支持。
同时,TranswarpInceptor还通过改进Spark使之更好地与HBase融合,可以为HBase提供完整的SQL支持,包括批量SQL统计、OLAP分析以及高并发低延时的SQL查询能力,使得HBase的应用可以从简单的在线查询应用扩展到复杂分析和在线应用结合的混合应用中,大大拓展了HBase的应用范围。
2.编程模型
TranswarpInceptor提供两种编程模型:一是基于SQL的编程模型,用于常规的数据分析、数据仓库类应用市场;二是基于数据挖掘编程模型,可以利用R语言或者SparkMLlib来做一些深度学习、数据挖掘等业务模型。
2.1SQL模型
TranswarpInceptor实现了自己的SQL解析执行引擎,可以兼容SQL99和HiveQL,自动识别语法,因此可以兼容现有的基于Hive开发的应用。由于TranswarpInceptor完整支持标准的SQL 99标准,传统数据库上运行的业务可以非常方便的迁移到Transwarp Inceptor系统上。此外Transwarp Inceptor支持PL/SQL扩展,传统数据仓库的基于PL/SQL存储过程的应用(如ETL工具)可以非常方便的在Inceptor上并发执行。另外Transwarp Inceptor支持部分SQL 2003标准,如窗口统计功能、安全审计功能等,并对多个行业开发了专门的函数库,因此可以满足多个行业的特性需求。
2.2数据挖掘计算模型
TranswarpInceptor实现了机器学习算法库与统计算法库,支持常用机器学习算法并行化与统计算法并行化,并利用Spark在迭代计算和内存计算上的优势,将并行的机器学习算法与统计算法运行在Spark上。例如:机器学习算法库有包括逻辑回归、朴素贝叶斯、支持向量机、聚类、线性回归、关联挖掘、推荐算法等,统计算法库包括均值、方差、中位数、直方图、箱线图等。TranswarpInceptor可以支持用R语言或者SparkAPI在平台上搭建多种分析型应用,例如用户行为分析、精准营销、对用户贴标签、进行分类。
3.SQL编译与优化
TranswarpInceptor研发了一套完整的SQL编译器,包括HiveQL解析器、SQL标准解析器和PL/SQL解析器,将不同的SQL语言解析成中间级表示语言,然后经过优化器转换成物理执行计划。SQL语言解析后经过逻辑优化器生成中间级表示语言,而中间表示语言再经过物理优化器生成最终的物理执行计划。从架构上分,逻辑优化器和物理优化器都包含基于规则的优化模块和基于成本的优化模块。
为了和Hadoop生态更好的兼容,Inceptor为一个SQL查询生成MapRece上的执行计划和Spark上的执行计划,并且可以通过一个SET命令在两种执行引擎之间切换。
3.1SQL编译与解析
TranswarpInceptor的SQL编译器会根据输入的SQL查询的类型来自动选择不同的解析器,如PL/SQL存储过程会自动进入PL/SQL解析器并生成一个SparkRDD的DAG从而在Spark平台上并行计算,标准SQL查询会进入SQL标准解析器生成Spark或MapRece执行计划。由于HiveQL和标准的SQL有所出入,为了兼容HiveQL,Transwarp Inceptor保留了HiveQL解析器,并可以对非标准SQL的Hive查询生成Spark或者Map Rece执行计划。
3.1.1SQL标准解析器
TranswarpInceptor构建了自主研发的SQL标准解析器,用于解析SQL99& SQL 2003查询并生成Spark和Map Rece的执行计划。词法和语法分析层基于Antlr语法来构建词法范式,通过Antlr来生成抽象语义树,并会通过一些上下文的语义来消除冲突并生成正确的抽象语义树。语义分析层解析上层生成的抽象语义树,根据上下文来生成逻辑执行计划并传递给优化器。首先Transwarp Inceptor会将SQL解析成TABLE SCAN、SELECT、FILTER、JOIN、UNION、ORDER BY、GROUP BY等主要的逻辑块,接着会根据一些Meta信息进一步细化各个逻辑块的执行计划。如TABLE SCAN会分成块读取、块过滤、行级别过滤、序列化等多个执行计划。
3.1.2PL/SQL解析器
PL/SQL是Oracle对SQL语言的模块化扩展,已经在很多行业中有大规模的应用,是数据仓库领域的重要编程语言。
为了让存储过程在Spark上有较好的性能,PL/SQL解析器会根据存储过程中的上下文关系来生成SQLDAG,然后对各SQL的执行计划生成的RDD进行二次编译,通过物理优化器将一些没有依赖关系的RDD进行合并从而生成一个最终的RDDDAG。因此,一个存储过程被解析成一个大的DAG,从而stage之间可以大量并发执行,避免了多次执行SQL的启动开销并保证了系统的并发性能。
解析并生成SQL级别的执行计划
3.2SQL优化器
TranswarpInceptor使用Spark作为默认计算引擎,并且开发了完善的SQL优化器,因此在大量的客户案例性能测试中,TranswarpInceptor的性能领先MapRece 10-100倍,并超越部分开源MPP数据库。SQL优化器对平台性能的提升居功至伟。
3.2.1基于规则的优化器(RuleBasedOptimizer)
目前为止,TranswarpInceptor共实现了一百多个优化规则,并且在持续的添加新的规则。按照功能划分,这些规则主要分布在如下几个模块:
文件读取时过滤
在文件读取时过滤数据能够最大化的减少参与计算的数据量从而最为有效的提高性能,因此TranswarpInceptor提供了多个规则用于生成表的过滤条件。对于一些SQL中的显示条件,TranswarpInceptor会尽量将过滤前推到读取表中;而对于一些隐式的过滤条件,如可以根据joinkey生成的过滤规则,Inceptor会根据语义保证正确性的前提下进行规则生成。
过滤条件前置
TranswarpInceptor能够从复杂的组合过滤条件中筛选出针对特定表的过滤规则,然后通过SQL语义来确定是否能将过滤条件前推到尽量早的时候执行。如果有子查询,过滤条件可以递归前推入最低层的子查询中,从而保证所有的冗余数据被删除。
超宽表的读取过滤
对一些列超多的表进行处理的时候,TranswarpInceptor首先会根据SQL语义来确定要读取的列,并在读取表的时候进行跨列读取减少IO和内存消耗。而如果表有过滤条件,Inceptor会做进一步优化,首先只读取过滤条件相关的列来确定该行记录是否需要被选择,如果不是就跳过当前行的所有列,因此能够最大程度上的减少数据读取。在一些商业实施中,这些优化规则能够带来5x-10x的性能提升。
Shuffle Stage的优化与消除
Spark的shuffle实现的效率非常低,需要把结果写磁盘,然后通过HTTP传输。TranswarpInceptor添加了一些shuffle消除的优化规则,对SQL的DAG中不必要或者是可以合并的shufflestage进行消除或者合并。对于必须要做Shuffle的计算任务,Inceptor通过DAGScheler来提高shuffle的效率:MapTask会直接将结果返回给DAGScheler,然后DAGScheler将结果直接交给Rece Task而不是等待所有Map Task结束,这样能够非常明显的提升shuffle阶段的性能。
Partition消除
TranswarpInceptor提供单一值Partition和RangePartition,并且支持对Partition建Bucket来做多次分区。当Partition过多的时候,系统的性能会因为内存消耗和调度开销而损失。因此,Inceptor提供了多个规则用于消除不必要的Partition,如果上下文中有隐式的对Partition的过滤条件,Inceptor也会生成对partition的过滤规则。
3.2.2基于成本的优化器(CostBasedOptimizer)
基于规则的优化器都是根据一些静态的信息来产生的,因此很多和动态数据相关的特性是不能通过基于规则的优化来解决,因此TranswarpInceptor提供了基于成本的优化器来做二次优化。相关的原始数据主要来自Meta-store中的表统计信息、RDD的信息、SQL上下文中的统计信息等。依赖于这些动态的数据,CBO会计算执行计划的物理成本并选择最有效的执行计划。一些非常有效的优化规则包括如下几点:
JOIN顺序调优
在实际的案例中,join是消耗计算量最多的业务,因此对join的优化至关重要。在多表JOIN模型中,TranswarpInceptor会根据统计信息来预估join的中间结果大小,并选择产生中间数据量最小的join顺序作为执行计划。
JOIN类型的选择
TranswarpInceptor支持Left-mostJoinTree 和 Bush Join Tree,并且会根据统计信息来选择生成哪种Join模型有最佳性能。此外,Transwarp Inceptor会根据原始表或者中间数据的大小来选择是否开启针对数据倾斜模型下的特殊优化等。此外,针对HBase表是否有索引的情况,Transwarp Inceptor会在普通Join和Look-up Join间做个均衡的选择。
并发度的控制
Spark通过线程级并发来提高性能,但是大量的并发可能会带来不必要的调度开销,因此不同的案例在不同并发度下会有最佳性能。TranswarpInceptor通过对RDD的一些属性进行推算来选择最佳并发控制,对很多的案例有着2x-3x的性能提升。
4.TranswarpHolodesk内存计算引擎
为了有效的降低SQL分析的延时,减少磁盘IO对系统性能的影响,星环科技研发了基于内存或者SSD的存储计算引擎TranswarpHolodesk,通过将表数据直接建在内存或者SSD上以实现SQL查询全内存计算。另外TranswarpHolodesk增加了数据索引功能,支持对多个数据列建索引,从而更大程度的降低了SQL查询延时。
4.1存储格式
TranswarpHolodesk基于列式存储做了大量的原创性改进带来更高的性能和更低的数据膨胀率。首先数据被序列化后存储到内存或SSD上以节省者资源占用。如图3所示,每个表的数据被存储成若干个Segment,每个Segment被划分成若干个Block,每个Block按照列方式存储于SSD或内存中。另外每个Block的头部都加上Min-MaxFilter和BloomFilter用于过滤无用的数据块,减少不必要的数据进入计算阶段。
TranswarpHolodesk根据查询条件的谓词属性对每个数据块的对应列构建数据索引,索引列采用自己研发的Trie结构进行组织存储,非索引列采用字典编码的方式进行组织存储。Trie不仅能对具有公共前缀的字符串进行压缩,而且可以对输入的字符串排序,从而可以利用二分查找快速查询所需数据的位置,从而快速响应查询需求。
HDFS2.6支持StorageTier让应用程序可以选择存储层为磁盘或者SSD,但是没有专用的存储格式设计是无法有效利用SSD的读写吞吐量和低延,因此现有的Text以及行列混合(ORC/Parquet)都不能有效的利用SSD的高性能。为此验证存储结构对性能的影响,我们将HDFS构建在SSD上并选用某基准测试来做了进一步的性能对比,结果如图4所示:采用文本格式,PCI-ESSD带来的性能提升仅1.5倍;采用专为内存和SSD设计的Holodesk列式存储,其性能相比较SSD上的HDFS提升高达6倍。
4.2性能优势
某运营商客户在12台x86服务器上搭建了TranswarpInceptor,将TranswarpHolodesk配置在PCIE-SSD上,并与普通磁盘表以及DB2来做性能对比测试。最终测试数据如图5所示:
在纯粹的count测试一项,Holodesk性能相对于磁盘表最高领先32倍;对于join测试一项,TranswarpHolodesk最高领先磁盘表多达12倍;在单表聚合测试中,Holodesk提升倍数达10~30倍。另外TranswarpHolodesk在和DB2的对比中也表现优秀,两个复杂SQL查询在DB2数据库中需要运行1小时以上,但是在使用TranswarpHolodesk均是分钟级和秒级就返回结果。
内存的价格大约是同样容量SSD的十倍左右,为了给企业提供更高性价比的计算方案,TranswarpHolodesk针对SSD进行了大量的优化,使得应用在SSD上运行具有与在内存上比较接近的性能,从而为客户提供了性价比更高的计算平台。
在对TPC-DS的IO密集型查询的测试中,无论上构建在PCI-ESSD还是内存上,Holodesk对比磁盘表有一个数量级上的性能提升;而SSD上的Holodesk性能只比内存差10%左右。
5.稳定的Spark执行引擎
企业目前应用开源Spark的主要困难在稳定性、可管理性和功能不够丰富上。开源Spark在稳定性上还有比较多的问题,在处理大数据量时可能无法运行结束或出现Outofmemory,性能时快时慢,有时比Map/Rece更慢,无法应用到复杂数据分析业务中。
TranswarpInceptor针对各种出错场景设计了多种解决方法,如通过基于成本的优化器选择最合适的执行计划、加强对数据结构内存使用效率的有效管理、对常见的内存出错问题通过磁盘进行数据备份等方式,极大提高了Spark功能和性能的稳定性,上述问题都已经解决并经过商业案例的考验。TranswarpInceptor能稳定的运行7*24小时,并能在TB级规模数据上高效进行各种稳定的统计分析。
6.SQL引擎效能验证
TPC-DS是TPC组织为DecisionSupportSystem设计的一个测试集,包含对大数据集的统计/报表生成/联机查询/数据挖掘等复杂应用,测试用的数据有各种不同的分布与倾斜,与真实场景非常接近。随着国内外各代表性的Hadoop发行版厂商以TPC-DS为标准测评产品,TPC-DS也就逐渐成为了业界公认的Hadoop系统测试准则。
6.1验证对比的平台和配置
我们搭建了两个集群分别用于TranswarpInceptor与ClouderaDataHub/Impala的测试。
6.2TranswarpInceptorVS Cloudera Impala
TranswarpInceptor由于有完善的SQL支持,能够运行全部所有的99个SQL查询。而由于Cloudera官方发布的TPC-DS测试集只包含19个SQL案例,因此我们只能运行这19个SQL,实验证明这部分查询在Impala上全部正常运行完成。
6.3TranswarpInceptorVS Map Rece
我们使用了同样的硬件和软件配置完成和开源的Hive执行效率相比,TranswarpInceptor能够带来10x-100x的性能提升。图8是TPC-DS的部分SQL查询在Inceptor和CDH5.1Hive的性能提升倍数,其中最大的提升倍数竟可达到123倍。
7.结语
随着在大数据领域国内外开始处于同一起跑线,我们相信像星环科技这样国内具有代表性的Hadoop发行版厂商将在中国的广阔市场空间中获得长足发展,并且由于中国市场激烈的竞争与磨练,逐步打磨出超越国外先进厂商的技术与实力。
刘汪根。2013年加入星环,作为早期员工参与了星环大数据平台的构建,现担任数据平台部研发经理,主要负责与管理星环大数据平台数据平台的研发工作,如SQL编译器,Spark执行引擎等工作,产品涵括TranswarpInceptor/TranswarpStream等软件。
【编者按】星环科技从2013年6月开始研发基于Spark的SQL执行引擎,在2013年底推出TranswarpInceptor1.0,并落地了国内首个7x24小时的商用项目。经过1年多的持续创新与改进,星环已经在国内落地了数十个Inceptor的商用项目。这是一篇星环Spark解决方案的技术解析,也是Spark用户可以效仿的优化之道。
‘叁’ 算法工程师应该学哪些
一、算法工程师简介
(通常是月薪15k以上,年薪18万以上,只是一个概数,具体薪资可以到招聘网站如拉钩,猎聘网上看看)
算法工程师目前是一个高端也是相对紧缺的职位;
算法工程师包括
音/视频算法工程师(通常统称为语音/视频/图形开发工程师)、图像处理算法工程师、计算机视觉算法工程师、通信基带算法工程师、信号算法工程师、射频/通信算法工程师、自然语言算法工程师、数据挖掘算法工程师、搜索算法工程师、控制算法工程师(云台算法工程师,飞控算法工程师,机器人控制算法)、导航算法工程师(
@之介
感谢补充)、其他【其他一切需要复杂算法的行业】
专业要求:计算机、电子、通信、数学等相关专业;
学历要求:本科及其以上的学历,大多数是硕士学历及其以上;
语言要求:英语要求是熟练,基本上能阅读国外专业书刊,做这一行经常要读论文;
必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。
算法工程师的技能树(不同方向差异较大,此处仅供参考)
1 机器学习
2 大数据处理:熟悉至少一个分布式计算框架Hadoop/Spark/Storm/ map-rece/MPI
3 数据挖掘
4 扎实的数学功底
5 至少熟悉C/C++或者Java,熟悉至少一门编程语言例如java/python/R
加分项:具有较为丰富的项目实践经验(不是水论文的哪种)
二、算法工程师大致分类与技术要求
(一)图像算法/计算机视觉工程师类
包括
图像算法工程师,图像处理工程师,音/视频处理算法工程师,计算机视觉工程师
要求
l
专业:计算机、数学、统计学相关专业;
l
技术领域:机器学习,模式识别
l
技术要求:
(1) 精通DirectX HLSL和OpenGL GLSL等shader语言,熟悉常见图像处理算法GPU实现及优化;
(2) 语言:精通C/C++;
(3) 工具:Matlab数学软件,CUDA运算平台,VTK图像图形开源软件【医学领域:ITK,医学图像处理软件包】
(4) 熟悉OpenCV/OpenGL/Caffe等常用开源库;
(5) 有人脸识别,行人检测,视频分析,三维建模,动态跟踪,车识别,目标检测跟踪识别经历的人优先考虑;
(6) 熟悉基于GPU的算法设计与优化和并行优化经验者优先;
(7) 【音/视频领域】熟悉H.264等视频编解码标准和FFMPEG,熟悉rtmp等流媒体传输协议,熟悉视频和音频解码算法,研究各种多媒体文件格式,GPU加速;
应用领域:
(1) 互联网:如美颜app
(2) 医学领域:如临床医学图像
(3) 汽车领域
(4) 人工智能
相关术语:
(1) OCR:OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程
(2) Matlab:商业数学软件;
(3) CUDA: (Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台(由ISA和GPU构成)。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题
(4) OpenCL: OpenCL是一个为异构平台编写程序的框架,此异构平台可由CPU,GPU或其他类型的处理器组成。
(5) OpenCV:开源计算机视觉库;OpenGL:开源图形库;Caffe:是一个清晰,可读性高,快速的深度学习框架。
(6) CNN:(深度学习)卷积神经网络(Convolutional Neural Network)CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。
(7) 开源库:指的是计算机行业中对所有人开发的代码库,所有人均可以使用并改进代码算法。
(二)机器学习工程师
包括
机器学习工程师
要求
l
专业:计算机、数学、统计学相关专业;
l
技术领域:人工智能,机器学习
l
技术要求:
(1) 熟悉Hadoop/Hive以及Map-Rece计算模式,熟悉Spark、Shark等尤佳;
(2) 大数据挖掘;
(3) 高性能、高并发的机器学习、数据挖掘方法及架构的研发;
应用领域:
(1)人工智能,比如各类仿真、拟人应用,如机器人
(2)医疗用于各类拟合预测
(3)金融高频交易
(4)互联网数据挖掘、关联推荐
(5)无人汽车,无人机
相关术语:
(1) Map-Rece:MapRece是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Rece(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
(三)自然语言处理工程师
包括
自然语言处理工程师
要求
l
专业:计算机相关专业;
l
技术领域:文本数据库
l
技术要求:
(1) 熟悉中文分词标注、文本分类、语言模型、实体识别、知识图谱抽取和推理、问答系统设计、深度问答等NLP 相关算法;
(2) 应用NLP、机器学习等技术解决海量UGC的文本相关性;
(3) 分词、词性分析、实体识别、新词发现、语义关联等NLP基础性研究与开发;
(4) 人工智能,分布式处理Hadoop;
(5) 数据结构和算法;
应用领域:
口语输入、书面语输入
、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储 、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
相关术语:
(2) NLP:人工智能的自然语言处理,NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。NLP涉及领域很多,最令我感兴趣的是“中文自动分词”(Chinese word segmentation):结婚的和尚未结婚的【计算机中却有可能理解为结婚的“和尚“】
(四)射频/通信/信号算法工程师类
包括
3G/4G无线通信算法工程师, 通信基带算法工程师,DSP开发工程师(数字信号处理),射频通信工程师,信号算法工程师
要求
l
专业:计算机、通信相关专业;
l
技术领域:2G、3G、4G,BlueTooth(蓝牙),WLAN,无线移动通信, 网络通信基带信号处理
l
技术要求:
(1) 了解2G,3G,4G,BlueTooth,WLAN等无线通信相关知识,熟悉现有的通信系统和标准协议,熟悉常用的无线测试设备;
(2) 信号处理技术,通信算法;
(3) 熟悉同步、均衡、信道译码等算法的基本原理;
(4) 【射频部分】熟悉射频前端芯片,扎实的射频微波理论和测试经验,熟练使用射频电路仿真工具(如ADS或MW或Ansoft);熟练使用cadence、altium designer PCB电路设计软件;
(5) 有扎实的数学基础,如复变函数、随机过程、数值计算、矩阵论、离散数学
应用领域:
通信
VR【用于快速传输视频图像,例如乐客灵境VR公司招募的通信工程师(数据编码、流数据)】
物联网,车联网
导航,军事,卫星,雷达
相关术语:
(1) 基带信号:指的是没有经过调制(进行频谱搬移和变换)的原始电信号。
(2) 基带通信(又称基带传输):指传输基带信号。进行基带传输的系统称为基带传输系统。传输介质的整个信道被一个基带信号占用.基带传输不需要调制解调器,设备化费小,具有速率高和误码率低等优点,.适合短距离的数据传输,传输距离在100米内,在音频市话、计算机网络通信中被广泛采用。如从计算机到监视器、打印机等外设的信号就是基带传输的。大多数的局域网使用基带传输,如以太网、令牌环网。
(3) 射频:射频(RF)是Radio Frequency的缩写,表示可以辐射到空间的电磁频率(电磁波),频率范围从300KHz~300GHz之间(因为其较高的频率使其具有远距离传输能力)。射频简称RF射频就是射频电流,它是一种高频交流变化电磁波的简称。每秒变化小于1000次的交流电称为低频电流,大于10000次的称为高频电流,而射频就是这样一种高频电流。高频(大于10K);射频(300K-300G)是高频的较高频段;微波频段(300M-300G)又是射频的较高频段。【有线电视就是用射频传输方式】
(4) DSP:数字信号处理,也指数字信号处理芯片
(五)数据挖掘算法工程师类
包括
推荐算法工程师,数据挖掘算法工程师
要求
l
专业:计算机、通信、应用数学、金融数学、模式识别、人工智能;
l
技术领域:机器学习,数据挖掘
l
技术要求:
(1) 熟悉常用机器学习和数据挖掘算法,包括但不限于决策树、Kmeans、SVM、线性回归、逻辑回归以及神经网络等算法;
(2) 熟练使用SQL、Matlab、Python等工具优先;
(3) 对Hadoop、Spark、Storm等大规模数据存储与运算平台有实践经验【均为分布式计算框架】
(4) 数学基础要好,如高数,统计学,数据结构
l
加分项:数据挖掘建模大赛;
应用领域
(1) 个性化推荐
(2) 广告投放
(3) 大数据分析
相关术语
Map-Rece:MapRece是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Rece(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
(六)搜索算法工程师
要求
l
技术领域:自然语言
l
技术要求:
(1) 数据结构,海量数据处理、高性能计算、大规模分布式系统开发
(2) hadoop、lucene
(3) 精通Lucene/Solr/Elastic Search等技术,并有二次开发经验
(4) 精通Lucene/Solr/Elastic Search等技术,并有二次开发经验;
(5) 精通倒排索引、全文检索、分词、排序等相关技术;
(6) 熟悉Java,熟悉Spring、MyBatis、Netty等主流框架;
(7) 优秀的数据库设计和优化能力,精通MySQL数据库应用 ;
(8) 了解推荐引擎和数据挖掘和机器学习的理论知识,有大型搜索应用的开发经验者优先。
(七)控制算法工程师类
包括了云台控制算法,飞控控制算法,机器人控制算法
要求
l
专业:计算机,电子信息工程,航天航空,自动化
l
技术要求:
(1) 精通自动控制原理(如PID)、现代控制理论,精通组合导航原理,姿态融合算法,电机驱动,电机驱动
(2) 卡尔曼滤波,熟悉状态空间分析法对控制系统进行数学模型建模、分析调试;
l
加分项:有电子设计大赛,机器人比赛,robocon等比赛经验,有硬件设计的基础;
应用领域
(1)医疗/工业机械设备
(2)工业机器人
(3)机器人
(4)无人机飞控、云台控制等
(八)导航算法工程师
要求
l 专业:计算机,电子信息工程,航天航空,自动化
l 技术要求(以公司职位JD为例)
公司一(1)精通惯性导航、激光导航、雷达导航等工作原理;
(2)精通组合导航算法设计、精通卡尔曼滤波算法、精通路径规划算法;
(3)具备导航方案设计和实现的工程经验;
(4)熟悉C/C++语言、熟悉至少一种嵌入式系统开发、熟悉Matlab工具;
公司二(1)熟悉基于视觉信息的SLAM、定位、导航算法,有1年以上相关的科研或项目经历;
(2)熟悉惯性导航算法,熟悉IMU与视觉信息的融合;
应用领域
无人机、机器人等。
‘肆’ SQL Server能象Excel一样可以处理多元线性回归吗
1、首先将预处理的数据输到单元格里。
2、“数据”里有一项“数据分析”。
3、在一堆数据分析工渣返亮具里找到回归这一项世睁。
4、对应框入Y值和X值,即可进行分如宽析。
5、点击确定后,即出现分析结果。
‘伍’ 数据分析如何入行
想要入行数据分析需要学习以下三种技能
1,SQL(数据库)处理海量的数据,数据来源于数据库,从数据库取数据,何建立两表、三表之间的关系,想要的特定的数据等,而这些是需要SQL解决的,所以SQL是数据分析的最基础的技能。
(5)线性回归sql扩展阅读
一、数据分析方向
数据挖掘方向:想要在一两个月内快速成为数据挖掘向的数据分析师很难,做数据挖掘必须要底子深基础牢,编程语言基础、算法、数据结构、统计学知识样样不能少。利用数据挖掘进行数据分析常用的3个方法:分类、回归分析、聚类等, 它们分别从不同的角度对数据进行挖掘。
回归分析:回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。
业务方向:需要对业务感知能力强,对数据十分敏感,掌握常用的一些业务分析模型套路,企业经常招聘的岗位是:商业分析、数据运营、用户研究、策略分析等等。
二、入门数据分析的参考书籍推荐
《增长黑客》、《网站分析实战》、《精益数据分析》、《深入浅出数据分析》、《啤酒与尿布》、《数据之魅》、《Storytelling with Data》。
‘陆’ 使用sql函数检测字符串是否存在对应的字串问题,。
函数分类列表
加载宏和自动化函数
多维数据集函数
数据库函数
日期和时间函数
工程函数
财务函数
信息函数
逻辑函数
查找和引用函数
数学和三角函数
统计函数
文本函数
-----------------------------------------------------
加载宏和自动化函数
CALL 调用动态链接库或代码源中的过程
EUROCONVERT 用于将数字转换为欧元形式,将数字由欧元形式转换为欧元成员国货币形式,或利用欧元作为中间货币将数字由某一欧元成员国货币转化为另一欧元成员国货币形式(三角转换关系)
GETPIVOTDATA 返回存储在数据透视表中的数据
REGISTER.ID 返回已注册过的指定动态链接库 (DLL) 或代码源的注册号
SQL.REQUEST 连接到一个外部的数据源并从工作表中运行查询,然后将查询结果以数组的形式返回,无需进行宏编程
多维数据集函数
CUBEKPIMEMBER 返回重要性能指标 (KPI) 名称、属性和度量,并显示单元格中的名称和属性。KPI 是一项用于监视单位业绩的可量化的指标,如每月总利润或每季度雇员调整。
CUBEMEMBER 返回多维数据集层次结构中的成员或元组。用于验证多维数据集内是否存在成员或元组。
CUBEMEMBERPROPERTY 返回多维数据集内成员属性的值。用于验证多维数据集内是否存在某个成员名并返回此成员的指定属性。
CUBERANKEDMEMBER 返回集合中的第 n 个或排在一定名次的成员。用于返回集合中的一个或多个元素,如业绩排在前几名的销售人员或前 10 名学生。
CUBESET 通过向服务器上的多维数据集发送集合表达式来定义一组经过计算的成员或元组(这会创建该集合),然后将该集合返回到 Microsoft Office Excel。
CUBESETCOUNT 返回集合中的项数。
CUBEVALUE 返回多维数据集内的汇总值。
数据库函数
DAVERAGE 返回所选数据库条目的平均值
DCOUNT 计算数据库中包含数字的单元格的数量
DCOUNTA 计算数据库中非空单元格的数量
DGET 从数据库提取符合指定条件的单个记录
DMAX 返回所选数据库条目的最大值
DMIN 返回所选数据库条目的最小值
DPRODUCT 将数据库中符合条件的记录的特定字段中的值相乘
DSTDEV 基于所选数据库条目的样本估算标准偏差
DSTDEVP 基于所选数据库条目的样本总体计算标准偏差
DSUM 对数据库中符合条件的记录的字段列中的数字求和
DVAR 基于所选数据库条目的样本估算方差
DVARP 基于所选数据库条目的样本总体计算方差
日期和时间函数
DATE 返回特定日期的序列号
DATEVALUE 将文本格式的日期转换为序列号
DAY 将序列号转换为月份日期
DAYS360 以一年 360 天为基准计算两个日期间的天数
EDATE 返回用于表示开始日期之前或之后月数的日期的序列号
EOMONTH 返回指定月数之前或之后的月份的最后一天的序列号
HOUR 将序列号转换为小时
MINUTE 将序列号转换为分钟
MONTH 将序列号转换为月
NETWORKDAYS 返回两个日期间的全部工作日数
NOW 返回当前日期和时间的序列号
SECOND 将序列号转换为秒
TIME 返回特定时间的序列号
TIMEVALUE 将文本格式的时间转换为序列号
TODAY 返回今天日期的序列号
WEEKDAY 将序列号转换为星期日期
WEEKNUM 将序列号转换为代表该星期为一年中第几周的数字
WORKDAY 返回指定的若干个工作日之前或之后的日期的序列号
YEAR 将序列号转换为年
YEARFRAC 返回代表 start_date 和 end_date 之间整天天数的年分数
工程函数
BESSELI 返回修正的贝赛耳函数 In(x)
BESSELJ 返回贝赛耳函数 Jn(x)
BESSELK 返回修正的贝赛耳函数 Kn(x)
BESSELY 返回贝赛耳函数 Yn(x)
BIN2DEC 将二进制数转换为十进制数
BIN2HEX 将二进制数转换为十六进制数
BIN2OCT 将二进制数转换为八进制数
COMPLEX 将实系数和虚系数转换为复数
CONVERT 将数字从一种度量系统转换为另一种度量系统
DEC2BIN 将十进制数转换为二进制数
DEC2HEX 将十进制数转换为十六进制数
DEC2OCT 将十进制数转换为八进制数
DELTA 检验两个值是否相等
ERF 返回误差函数
ERFC 返回互补错误函数
GESTEP 检验数字是否大于阈值
HEX2BIN 将十六进制数转换为二进制数
HEX2DEC 将十六进制数转换为十进制数
HEX2OCT 将十六进制数转换为八进制数
IMABS 返回复数的绝对值(模数)
IMAGINARY 返回复数的虚系数
IMARGUMENT 返回参数 theta,即以弧度表示的角
IMCONJUGATE 返回复数的共轭复数
IMCOS 返回复数的余弦
IMDIV 返回两个复数的商
IMEXP 返回复数的指数
IMLN 返回复数的自然对数
IMLOG10 返回复数的以 10 为底的对数
IMLOG2 返回复数的以 2 为底的对数
IMPOWER 返回复数的整数幂
IMPRODUCT 返回从 2 到 29 的复数的乘积
IMREAL 返回复数的实系数
IMSIN 返回复数的正弦
IMSQRT 返回复数的平方根
IMSUB 返回两个复数的差
IMSUM 返回多个复数的和
OCT2BIN 将八进制数转换为二进制数
OCT2DEC 将八进制数转换为十进制数
OCT2HEX 将八进制数转换为十六进制数
财务函数
ACCRINT 返回定期支付利息的债券的应计利息
ACCRINTM 返回在到期日支付利息的债券的应计利息
AMORDEGRC 返回使用折旧系数的每个记帐期的折旧值
AMORLINC 返回每个记帐期的折旧值
COUPDAYBS 返回从付息期开始到成交日之间的天数
COUPDAYS 返回包含成交日的付息期天数
COUPDAYSNC 返回从成交日到下一付息日之间的天数
COUPNCD 返回成交日之后的下一个付息日
COUPNUM 返回成交日和到期日之间的应付利息次数
COUPPCD 返回成交日之前的上一付息日
CUMIPMT 返回两个付款期之间累积支付的利息
CUMPRINC 返回两个付款期之间为贷款累积支付的本金
DB 使用固定余额递减法,返回一笔资产在给定期间内的折旧值
DDB 使用双倍余额递减法或其他指定方法,返回一笔资产在给定期间内的折旧值
DISC 返回债券的贴现率
DOLLARDE 将以分数表示的价格转换为以小数表示的价格
DOLLARFR 将以小数表示的价格转换为以分数表示的价格
DURATION 返回定期支付利息的债券的每年期限
EFFECT 返回年有效利率
FV 返回一笔投资的未来值
FVSCHEDULE 返回应用一系列复利率计算的初始本金的未来值
INTRATE 返回完全投资型债券的利率
IPMT 返回一笔投资在给定期间内支付的利息
IRR 返回一系列现金流的内部收益率
ISPMT 计算特定投资期内要支付的利息
MDURATION 返回假设面值为 ¥100 的有价证券的 Macauley 修正期限
MIRR 返回正和负现金流以不同利率进行计算的内部收益率
NOMINAL 返回年度的名义利率
NPER 返回投资的期数
NPV 返回基于一系列定期的现金流和贴现率计算的投资的净现值
ODDFPRICE 返回每张票面为 ¥100 且第一期为奇数的债券的现价
ODDFYIELD 返回第一期为奇数的债券的收益
ODDLPRICE 返回每张票面为 ¥100 且最后一期为奇数的债券的现价
ODDLYIELD 返回最后一期为奇数的债券的收益
PMT 返回年金的定期支付金额
PPMT 返回一笔投资在给定期间内偿还的本金
PRICE 返回每张票面为 ¥100 且定期支付利息的债券的现价
PRICEDISC 返回每张票面为 ¥100 的已贴现债券的现价
PRICEMAT 返回每张票面为 ¥100 且在到期日支付利息的债券的现价
PV 返回投资的现值
RATE 返回年金的各期利率
RECEIVED 返回完全投资型债券在到期日收回的金额
SLN 返回固定资产的每期线性折旧费
SYD 返回某项固定资产按年限总和折旧法计算的每期折旧金额
TBILLEQ 返回国库券的等价债券收益
TBILLPRICE 返回面值 ¥100 的国库券的价格
TBILLYIELD 返回国库券的收益率
VDB 使用余额递减法,返回一笔资产在给定期间或部分期间内的折旧值
XIRR 返回一组现金流的内部收益率,这些现金流不一定定期发生
XNPV 返回一组现金流的净现值,这些现金流不一定定期发生
YIELD 返回定期支付利息的债券的收益
YIELDDISC 返回已贴现债券的年收益;例如,短期国库券
YIELDMAT 返回在到期日支付利息的债券的年收益
信息函数
CELL 返回有关单元格格式、位置或内容的信息
ERROR.TYPE 返回对应于错误类型的数字
INFO 返回有关当前操作环境的信息
ISBLANK 如果值为空,则返回 TRUE
ISERR 如果值为除 #N/A 以外的任何错误值,则返回 TRUE
ISERROR 如果值为任何错误值,则返回 TRUE
ISEVEN 如果数字为偶数,则返回 TRUE
ISLOGICAL 如果值为逻辑值,则返回 TRUE
ISNA 如果值为错误值 #N/A,则返回 TRUE
ISNONTEXT 如果值不是文本,则返回 TRUE
ISNUMBER 如果值为数字,则返回 TRUE
ISODD 如果数字为奇数,则返回 TRUE
ISREF 如果值为引用值,则返回 TRUE
ISTEXT 如果值为文本,则返回 TRUE
N 返回转换为数字的值
NA 返回错误值 #N/A
TYPE 返回表示值的数据类型的数字
逻辑函数
AND 如果其所有参数均为 TRUE,则返回 TRUE
FALSE 返回逻辑值 FALSE
IF 指定要执行的逻辑检测
NOT 对其参数的逻辑求反
OR 如果任一参数为 TRUE,则返回 TRUE
TRUE 返回逻辑值 TRUE
查找和引用函数
ADDRESS 以文本形式将引用值返回到工作表的单个单元格
AREAS 返回引用中涉及的区域个数
CHOOSE 从值的列表中选择值
COLUMN 返回引用的列号
COLUMNS 返回引用中包含的列数
GETPIVOTDATA 返回存储在数据透视表中的数据
HLOOKUP 查找数组的首行,并返回指定单元格的值
HYPERLINK 创建快捷方式或跳转,以打开存储在网络服务器、Intranet 或 Internet 上的文档
INDEX 使用索引从引用或数组中选择值
INDIRECT 返回由文本值指定的引用
LOOKUP 在向量或数组中查找值
MATCH 在引用或数组中查找值
OFFSET 从给定引用中返回引用偏移量
ROW 返回引用的行号
ROWS 返回引用中的行数
RTD 从支持 COM 自动化 (自动化:从其他应用程序或开发工具使用应用程序的对象的方法。以前称为“OLE 自动化”,自动化是一种工业标准和组件对象模型 (COM) 功能。)的程序中检索实时数据
TRANSPOSE 返回数组的转置
VLOOKUP 在数组第一列中查找,然后在行之间移动以返回单元格的值
数学和三角函数
ABS 返回数字的绝对值
ACOS 返回数字的反余弦值
ACOSH 返回数字的反双曲余弦值
ASIN 返回数字的反正弦值
ASINH 返回数字的反双曲正弦值
ATAN 返回数字的反正切值
ATAN2 返回 X 和 Y 坐标的反正切值
ATANH 返回数字的反双曲正切值
CEILING 将数字舍入为最接近的整数或最接近的指定基数的倍数
COMBIN 返回给定数目对象的组合数
COS 返回数字的余弦值
COSH 返回数字的双曲余弦值
DEGREES 将弧度转换为度
EVEN 将数字向上舍入到最接近的偶数
EXP 返回 e 的 n 次方
FACT 返回数字的阶乘
FACTDOUBLE 返回数字的双倍阶乘
FLOOR 向绝对值减小的方向舍入数字
GCD 返回最大公约数
INT 将数字向下舍入到最接近的整数
LCM 返回最小公倍数
LN 返回数字的自然对数
LOG 返回数字的以指定底为底的对数
LOG10 返回数字的以 10 为底的对数
MDETERM 返回数组的矩阵行列式的值
MINVERSE 返回数组的逆矩阵
MMULT 返回两个数组的矩阵乘积
MOD 返回除法的余数
MROUND 返回一个舍入到所需倍数的数字
MULTINOMIAL 返回一组数字的多项式
ODD 将数字向上舍入为最接近的奇数
PI 返回 pi 的值
POWER 返回数的乘幂
PRODUCT 将其参数相乘
QUOTIENT 返回除法的整数部分
RADIANS 将度转换为弧度
RAND 返回 0 和 1 之间的一个随机数
RANDBETWEEN 返回位于两个指定数之间的一个随机数
ROMAN 将阿拉伯数字转换为文本式罗马数
ROUND 将数字按指定位数舍入
ROUNDDOWN 向绝对值减小的方向舍入数字
ROUNDUP 向绝对值增大的方向舍入数字
SERIESSUM 返回基于公式的幂级数的和
SIGN 返回数字的符号
SIN 返回给定角度的正弦值
SINH 返回数字的双曲正弦值
SQRT 返回正平方根
SQRTPI 返回某数与 pi 的乘积的平方根
小计 返回列表或数据库中的分类汇总
SUM 求参数的和
SUMIF 按给定条件对若干单元格求和
SUMIFS 在区域中添加满足多个条件的单元格
SUMPRODUCT 返回对应的数组元素的乘积和
SUMSQ 返回参数的平方和
SUMX2MY2 返回两数组中对应值平方差之和
SUMX2PY2 返回两数组中对应值的平方和之和
SUMXMY2 返回两个数组中对应值差的平方和
TAN 返回数字的正切值
TANH 返回数字的双曲正切值
TRUNC 将数字截尾取整
统计函数
AVEDEV 返回数据点与它们的平均值的绝对偏差平均值
AVERAGE 返回其参数的平均值
AVERAGEA 返回其参数的平均值,包括数字、文本和逻辑值
AVERAGEIF 返回区域中满足给定条件的所有单元格的平均值(算术平均值)
AVERAGEIFS 返回满足多个条件的所有单元格的平均值(算术平均值)。
BETADIST 返回 Beta 累积分布函数
BETAINV 返回指定 Beta 分布的累积分布函数的反函数
BINOMDIST 返回一元二项式分布的概率值
CHIDIST 返回 χ2 分布的单尾概率
CHIINV 返回 γ2 分布的单尾概率的反函数
CHITEST 返回独立性检验值
CONFIDENCE 返回总体平均值的置信区间
CORREL 返回两个数据集之间的相关系数
COUNT 计算参数列表中数字的个数
COUNTA 计算参数列表中值的个数
COUNTBLANK 计算区域内空白单元格的数量
COUNTIF 计算区域内非空单元格的数量
COVAR 返回协方差,成对偏差乘积的平均值
CRITBINOM 返回使累积二项式分布小于或等于临界值的最小值
DEVSQ 返回偏差的平方和
EXPONDIST 返回指数分布
FDIST 返回 F 概率分布
FINV 返回 F 概率分布的反函数值
FISHER 返回 Fisher 变换值
FISHERINV 返回 Fisher 变换的反函数值
FORECAST 返回沿线性趋势的值
FREQUENCY 以垂直数组的形式返回频率分布
FTEST 返回 F 检验的结果
GAMMADIST 返回 γ 分布
GAMMAINV 返回 γ 累积分布函数的反函数
GAMMALN 返回 γ 函数的自然对数,Γ(x)
GEOMEAN 返回几何平均值
GROWTH 返回沿指数趋势的值
HARMEAN 返回调和平均值
HYPGEOMDIST 返回超几何分布
INTERCEPT 返回线性回归线的截距
KURT 返回数据集的峰值
LARGE 返回数据集中第 k 个最大值
LINEST 返回线性趋势的参数
LOGEST 返回指数趋势的参数
LOGINV 返回对数分布函数的反函数
LOGNORMDIST 返回对数累积分布函数
MAX 返回参数列表中的最大值
MAXA 返回参数列表中的最大值,包括数字、文本和逻辑值
MEDIAN 返回给定数值集合的中值
MIN 返回参数列表中的最小值
MINA 返回参数列表中的最小值,包括数字、文本和逻辑值
MODE 返回在数据集内出现次数最多的值
NEGBINOMDIST 返回负二项式分布
NORMDIST 返回正态累积分布
NORMINV 返回标准正态累积分布的反函数
NORMSDIST 返回标准正态累积分布
NORMSINV 返回标准正态累积分布函数的反函数
PEARSON 返回 Pearson 乘积矩相关系数
PERCENTILE 返回区域中数值的第 K 个百分点的值
PERCENTRANK 返回数据集中值的百分比排位
PERMUT 返回给定数目对象的排列数
POISSON 返回泊松分布
PROB 返回区域中的数值落在指定区间内的概率
QUARTILE 返回一列数字的数字排位
RANK 返回一列数字的数字排位
RSQ 返回 Pearson 乘积矩相关系数的平方
SKEW 返回分布的不对称度
SLOPE 返回线性回归线的斜率
SMALL 返回数据集中的第 K 个最小值
STANDARDIZE 返回正态化数值
STDEV 基于样本估算标准偏差
STDEVA 基于样本(包括数字、文本和逻辑值)估算标准偏差
STDEVP 基于整个样本总体计算标准偏差
STDEVPA 基于总体(包括数字、文本和逻辑值)计算标准偏差
STEYX 返回通过线性回归法预测每个 x 的 y 值时所产生的标准误差
TDIST 返回学生的 t 分布
TINV 返回学生的 t 分布的反函数
TREND 返回沿线性趋势的值
TRIMMEAN 返回数据集的内部平均值
TTEST 返回与学生的 t 检验相关的概率
VAR 基于样本估算方差
VARA 基于样本(包括数字、文本和逻辑值)估算方差
VARP 计算基于样本总体的方差
VARPA 计算基于总体(包括数字、文本和逻辑值)的标准偏差
WEIBULL 返回 Weibull 分布
ZTEST 返回 z 检验的单尾概率值
文本函数
ASC 将字符串中的全角(双字节)英文字母或片假名更改为半角(单字节)字符
BAHTTEXT 使用 ß(泰铢)货币格式将数字转换为文本
CHAR 返回由代码数字指定的字符
CLEAN 删除文本中所有非打印字符
CODE 返回文本字符串中第一个字符的数字代码
CONCATENATE 将几个文本项合并为一个文本项
DOLLAR 使用 $(美元)货币格式将数字转换为文本
EXACT 检查两个文本值是否相同
FIND、FINDB 在一个文本值中查找另一个文本值(区分大小写)
FIXED 将数字格式设置为具有固定小数位数的文本
JIS 将字符串中的半角(单字节)英文字母或片假名更改为全角(双字节)字符
LEFT、LEFTB 返回文本值中最左边的字符
LEN、LENB 返回文本字符串中的字符个数
LOWER 将文本转换为小写
MID、MIDB 从文本字符串中的指定位置起返回特定个数的字符
PHONETIC 提取文本字符串中的拼音(汉字注音)字符
PROPER 将文本值的每个字的首字母大写
REPLACE、REPLACEB 替换文本中的字符
REPT 按给定次数重复文本
RIGHT、RIGHTB 返回文本值中最右边的字符
SEARCH、SEARCHB 在一个文本值中查找另一个文本值(不区分大小写)
SUBSTITUTE 在文本字符串中用新文本替换旧文本
T 将参数转换为文本
TEXT 设置数字格式并将其转换为文本
TRIM 删除文本中的空格
UPPER 将文本转换为大写形式
VALUE 将文本参数转换为数字
‘柒’ 机器学习如何从数据库中提取模型需要的数据
逻辑回归:y=sigmoid(w'x)
线性回归:y=w'x
也就是逻辑回归比线性回归多了一个sigmoid函数,sigmoid(x)=1/(1+exp(-x)),其实就是对x进行归一化操作,使得sigmoid(x)位于0~1
逻辑回归通常用于二分类模型,目标函数是二类交叉熵,y的值表示属于第1类的概率,用户可以自己设置一个分类阈值。
线性回归用来拟合数据,目标函数是平法和误差