sqlelt_开源ETL工具比较Kettle和Talend都有什么优势和劣势

⑴ sql server insert values 语句怎么写

insert
into
dede_addonarticle
(templets)
values(
elt(round(rand()*2+1),'article_article1.htm','article_article2.htm','article_article3.htm')
)
;
这里使用到了mysql的字符串处理函数。elt和round,rand
elt解释如下：
elt(n,str1,str2,str3,...)
若n
=
1，则返回值为
str1
，若n
=
2，则返回值为
str2
，以此类推。
若n
小于1或大于参数的数目，则返回值为
null
。
elt()
是
field()的补数。
round(rand()*2+1)
这里是为了生成1-3之前的随机整数。
-----------------------------------------------------
好像你题目是给的5个。那么就修改round(rand()*2+1)为round(rand()*4+1)，然后再elt的参数列表里面添加上第4,5个字符串~就好了。。
-----------------------------------------------------
update
dede_addonarticle
set
templets
=
elt(round(rand()*4+1),'article_article1.htm','article_article2.htm','article_article3.htm','article_article4.htm','article_article5.htm')
where
...

⑵ 数据架构师分为哪些类型

1、渠道型数据架构师

这个方向也会分类：一，开源派，互联网公司一般喜欢这个门户，二，商用软件派，如 Oracle、IBM 等门户，通常处理传统企业的数据问题。这个门户现在受到了来自阿里、腾讯和华为较大的冲击。个人认为现在开源派是比较契合近年潮流趋势的。

渠道型数据架构师，是为数仓型数据架构师服务的，直白地说，你开发才能要很牛逼，你要懂应用。

2、数仓型数据架构师

这个方向要求通晓数据仓库原理，经过实时、离线等技能处理企业的数据问题。需要把握 ELT 的流程，把握各种数据源的特点，把握大数据东西的运用。

数仓型数据架构师，刚好是渠道型数据架构师的用户。直白地说，你写 SQL 的才能要牛逼，你要懂事务。

关于数据架构师分为哪些类型，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

⑶ 数据ETL是指什么

对于做过 BI 开发的朋友，ETL 并不陌生，只要涉及到数据源的数据抽取、数据的计算和处理过程的开发，都是 ETL，ETL 就这三个阶段，Extraction 抽取，Transformation 转换，Loading 加载。

从不同数据源抽取数据 EXTRACTION ，按照一定的数据处理规则对数据进行加工和格式转换 TRASFORMATION，最后处理完成的输出到目标数据表中也有可能是文件等等，这个就是 LOADING。

再通俗一点讲，ETL 的过程就跟大家日常做菜一样，需要到菜市场的各个摊位买好菜，把菜买回来要摘一下，洗一洗，切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源，做好的菜就是最终的输出结果，中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。

在开发的时候，大部分时候会通过 ETL 工具去实现，比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等，在结合基本的 SQL 来实现整个 ETL 过程。

也有的是自己通过程序开发，然后控制一些数据处理脚本跑批，基本上就是程序加 SQL 实现。

哪种方式更好，也是需要看使用场景和开发人员对那种方式使用的更加得心应手。我看大部分软件程序开发人员出身的，碰到数据类项目会比较喜欢用程序控制跑批，这是程序思维的自然延续。纯 BI 开发人员大部分自然就选择成熟的 ETL 工具来开发，当然也有一上来就写程序脚本的，这类 BI 开发人员的师傅基本上是程序人员转过来的。

用程序的好处就是适配性强，可扩展性强，可以集成或拆解到到任何的程序处理过程中，有的时候使用程序开发效率更高。难就难在对维护人员有一定的技术要求，经验转移和可复制性不够。

用 ETL 工具的好处，第一是整个 ETL 的开发过程可视化了，特别是在数据处理流程的分层设计中可以很清晰的管理。第二是链接到不同数据源的时候，各种数据源、数据库的链接协议已经内置了，直接配置就可以，不需要再去写程序去实现。第三是各种转换控件基本上拖拉拽就可以使用，起到简化的代替一部分 SQL 的开发，不需要写代码去实现。第四是可以非常灵活的设计各种 ETL 调度规则，高度配置化，这个也不需要写代码实现。

所以在大多数通用的项目中，在项目上使用 ETL 标准组件开发会比较多一些。

ETL 从逻辑上一般可以分为两层，控制流和数据流，这也是很多 ETL 工具设计的理念，不同的 ETL 工具可能叫法不同。

控制流就是控制每一个数据流与数据流处理的先后流程，一个控制流可以包含多个数据流。比如在数据仓库开发过程中，第一层的处理是ODS层或者Staging 层的开发，第二层是 DIMENSION维度层的开发，后面几层就是DW 事实层、DM数据集市层的开发。通过ETL的调度管理就可以让这几层串联起来形成一个完整的数据处理流程。

数据流就是具体的从源数据到目标数据表的数据转换过程，所以也有 ETL 工具把数据流叫做转换。在数据流的开发设计过程中主要就是三个环节，目标数据表的链接，这两个直接通过 ETL 控件配置就可以了。中间转换的环节，这个时候就可能有很多的选择了，调 SQL 语句、存储过程，或者还是使用 ETL 控件来实现。

有的项目上习惯使用 ETL 控件来实现数据流中的转换，也有的项目要求不使用标准的转换组件使用存储过程来调用。也有的是因为数据仓库本身这个数据库不支持存储过程就只能通过标准的SQL来实现。

我们通常讲的BI数据架构师其实指的就是ETL的架构设计，这是整个BI项目中非常核心的一层技术实现，数据处理、数据清洗和建模都是在ETL中去实现。一个好的ETL架构设计可以同时支撑上百个包就是控制流，每一个控制流下可能又有上百个数据流的处理过程。之前写过一篇技术文章，大家可以搜索下关键字 BIWORK ETL 应该在网上还能找到到这篇文章。这种框架设计不仅仅是ETL框架架构上的设计，还有很深的ETL项目管理和规范性控制器思想，包括后期的运维，基于BI的BI分析，ETL的性能调优都会在这些框架中得到体现。因为大的BI项目可能同时需要几十人来开发ETL，框架的顶层设计就很重要。

⑷ 开源ETL工具比较，Kettle和Talend，都有什么优势和劣势

Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器（Spoon），您可以定义以XML格式储存的流程。在Kettle运行过程中，这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte)，数据库存储库（repository）(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 开发的ETL工具——Talend 是一家主营数据集成和数据管理解决方案的企业。Talend 采用用户友好型，综合性很强的IDE（类似于Pentaho Kettle 的 Spoon）来设计不同的流程。这些流程可以在IDE内部测试并编译成Java 代码。您可以随时查看并编辑生成的Java代码，同时实现强大的控制力和灵活性。

两者都非常优秀，都属于用户友好型的交叉平台（基于Java的）工具。它们的主要差异在于Kettle 将 ELT 流程编译为 XML 格式，然而Talend Open Studio 则生成 Java 代码。

易用性：
Talend：有 GUI 图形界面但是以 Eclipse 的插件方式提供。
Kettle：有非常容易使用的 GUI，出现问题可以到社区咨询。

技术支持：
Talend：主要在美国
Kettle：在美国，欧洲（比利时，德国，法国，英国），亚洲（中国，日本，韩国）都可以找到相关技术支持人员。

部署：
Talend：创建 java 或perl 文件，并通过操作系统调度工具来运行
Kettle：可以使用 job 作业方式或操作系统调度，来执行一个转换文件或作业文件，也可以通过集群的方式在多台机器上部署。

速度：
Talend：需要手工调整，对特定数据源有优化知识。
Kettle：比 Talend 快，不过也需要手工调整，对 Oracle 和 PostGre 等数据源做了优化，同时也取决于转换任务的设计。

数据质量：
Talend：在 GUI 里有数据质量特性，可以手工写 SQL 语句。
Kettle：在 GUI 里有数据质量特性，可以手工写 SQL 语句、java脚本、正则表达式来完成数据清洗。

监控：
Talend：有监控和日志工具
Kettle：有监控和日志工具

连接性：
Talend：各种常用数据库，文件，web service。
Kettle：非常广泛的数据库，文件，另外可以通过插件扩展

⑸ 什么是ETL

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据， ETL是BI（商业智能）项目重要的一个环节。

(5)sqlelt扩展阅读：

ETL与ELT：

ETL所描述的过程，一般常见的作法包含ETL或是ELT（Extract-Load-Transform），并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库，愈偏向使用ELT，以便运用目的端数据库的平行处理能力。

ETL（orELT）的流程可以用任何的编程语言去开发完成，由于ETL是极为复杂的过程，而手写程序不易管理，有愈来愈多的企业采用工具协助ETL的开发，并运用其内置的metadata功能来存储来源与目的的对应（mapping）以及转换规则。

工具可以提供较强大的连接功能（connectivity）来连接来源端及目的端，开发人员不用去熟悉各种相异的平台及数据的结构，亦能进行开发。当然，为了这些好处，付出的代价便是金钱。

⑹ 如何用MYSQL函数删除字符串最后几个字符

字符串或串(String)是由零个或多个字符组成的有限序列。一般记为 s='a1a2•••an'(n>=0)。它是编程语言中表示文本的数据类型。

通常以串的整体作为操作对象，如：在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是：长度相等，并且各个对应位置上的字符都相等。设p、q是两个串，求q在p中首次出现的位置的运算叫做模式匹配。串的两种最基本的存储方式是顺序存储方式和链接存储方式。

下面我们来看看MySQL中的字符串函数

假如结果的长度大于 max_allowed_packet 系统变量的最大值时，字符串值函数的返回值为NULL。

对于在字符串位置操作的函数，第一个位置的编号为 1。

◆ ASCII(str)

返回值为字符串str 的最左字符的数值。假如str为空字符串，则返回值为 0 。假如str 为NULL，则返回值为 NULL。 ASCII()用于带有从 0到255的数值的字符。

mysql>SELECTASCII('2');

->50

mysql>SELECTASCII(2);

->50

mysql>SELECTASCII('dx');

->100

见 ORD()函数。

◆ BIN(N)

返回值为N的二进制值的字符串表示，其中 N 为一个longlong (BIGINT) 数字。这等同于 CONV(N,10,2)。假如N 为NULL，则返回值为 NULL。

mysql>SELECTBIN(12);
->'1100'

◆ BIT_LENGTH(str)

返回值为二进制的字符串str 长度。

mysql>SELECTBIT_LENGTH('text');
->32

◆ CHAR(N,... [USING charset])

CHAR()将每个参数N理解为一个整数，其返回值为一个包含这些整数的代码值所给出的字符的字符串。NULL值被省略。

mysql>SELECTCHAR(77,121,83,81,'76');
->'MySQL'
mysql>SELECTCHAR(77,77.3,'77.3');
->'MMM'
大于 255的CHAR()参数被转换为多结果字符。例如，CHAR(256) 相当于 CHAR(1,0), 而CHAR(256*256) 则相当于 CHAR(1,0,0)：

mysql>SELECTHEX(CHAR(1,0)),HEX(CHAR(256));
+----------------+----------------+
|HEX(CHAR(1,0))|HEX(CHAR(256))|
+----------------+----------------+
|0100|0100|
+----------------+----------------+
mysql>SELECTHEX(CHAR(1,0,0)),HEX(CHAR(256*256));
+------------------+--------------------+
|HEX(CHAR(1,0,0))|HEX(CHAR(256*256))|
+------------------+--------------------+
|010000|010000|
+------------------+--------------------+

CHAR()的返回值为一个二进制字符串。可选择使用USING语句产生一个给出的字符集中的字符串：

mysql>SELECTCHARSET(CHAR(0x65)),CHARSET(CHAR(0x65USINGutf8));
mysql>SELECTCHARSET(CHAR(0x65)),CHARSET(CHAR(0x65USINGutf8));
+---------------------+--------------------------------+
|CHARSET(CHAR(0x65))|CHARSET(CHAR(0x65USINGutf8))|
+---------------------+--------------------------------+
|binary|utf8|
+---------------------+--------------------------------+

如果 USING已经产生，而结果字符串不符合给出的字符集，则会发出警告。同样，如果严格的SQL模式被激活，则CHAR()的结果会成为 NULL。

◆ CHAR_LENGTH(str)

返回值为字符串str 的长度，长度的单位为字符。一个多字节字符算作一个单字符。对于一个包含五个二字节字符集, LENGTH()返回值为 10, 而CHAR_LENGTH()的返回值为5。

◆ CHARACTER_LENGTH(str)

CHARACTER_LENGTH()是CHAR_LENGTH()的同义词。

◆ COMPRESS(string_to_compress)

压缩一个字符串。这个函数要求 MySQL已经用一个诸如zlib的压缩库压缩过。否则，返回值始终是NULL。UNCOMPRESS() 可将压缩过的字符串进行解压缩。

mysql>SELECTLENGTH(COMPRESS(REPEAT('a',1000)));
->21
mysql>SELECTLENGTH(COMPRESS(''));
->0
mysql>SELECTLENGTH(COMPRESS('a'));
->13
mysql>SELECTLENGTH(COMPRESS(REPEAT('a',16)));
->15
压缩后的字符串的内容按照以下方式存储：

空字符串按照空字符串存储。

非空字符串未压缩字符串的四字节长度进行存储(首先为低字节),后面是压缩字符串。如果字符串以空格结尾，就会在后加一个"."号,以防止当结果值是存储在CHAR或VARCHAR类型的字段列时,出现自动把结尾空格去掉的现象。(不推荐使用 CHAR 或VARCHAR 来存储压缩字符串。最好使用一个 BLOB 列代替）。

◆ CONCAT(str1,str2,...)

返回结果为连接参数产生的字符串。如有任何一个参数为NULL ，则返回值为 NULL。或许有一个或多个参数。如果所有参数均为非二进制字符串，则结果为非二进制字符串。如果自变量中含有任一二进制字符串，则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式；若要避免这种情况，可使用显式类型 cast, 例如： SELECT CONCAT(CAST(int_col AS CHAR), char_col)

mysql>SELECTCONCAT('My','S','QL');
->'MySQL'
mysql>SELECTCONCAT('My',NULL,'QL');
->NULL
mysql>SELECTCONCAT(14.3);->'14.3'

◆ CONCAT_WS(separator,str1,str2,...)

CONCAT_WS() 代表 CONCAT With Separator ，是CONCAT()的特殊形式。第一个参数是其它参数的分隔符。分隔符的位置放在要连接的两个字符串之间。分隔符可以是一个字符串，也可以是其它参数。如果分隔符为 NULL，则结果为 NULL。函数会忽略任何分隔符参数后的 NULL 值。

mysql>SELECTCONCAT_WS(',','Firstname','Secondname','LastName');
->'Firstname,Secondname,LastName'
mysql>SELECTCONCAT_WS(',','Firstname',NULL,'LastName');
->'Firstname,LastName'

CONCAT_WS()不会忽略任何空字符串。 (然而会忽略所有的 NULL）。

◆ CONV(N,from_base,to_base)

不同数基间转换数字。返回值为数字的N字符串表示，由from_base基转化为 to_base 基。如有任意一个参数为NULL，则返回值为 NULL。自变量 N 被理解为一个整数，但是可以被指定为一个整数或字符串。最小基数为 2 ，而最大基数则为 36。 If to_base 是一个负数，则 N 被看作一个带符号数。否则， N 被看作无符号数。 CONV() 的运行精确度为 64比特。

mysql>SELECTCONV('a',16,2);
->'1010'
mysql>SELECTCONV('6E',18,8);
->'172'
mysql>SELECTCONV(-17,10,-18);
->'-H'
mysql>SELECTCONV(10+'10'+'10'+0xa,10,10);
->'40'

◆ ELT(N,str1,str2,str3,...)

若N = 1，则返回值为 str1 ，若N = 2，则返回值为 str2 ，以此类推。若N 小于1或大于参数的数目，则返回值为 NULL 。 ELT() 是 FIELD()的补数。

mysql>SELECTELT(1,'ej','Heja','hej','foo');
->'ej'
mysql>SELECTELT(4,'ej','Heja','hej','foo');
->'foo'
◆ EXPORT_SET(bits,on,off[,separator[,number_of_bits]])

返回值为一个字符串，其中对于bits值中的每个位组，可以得到一个 on 字符串，而对于每个清零比特位，可以得到一个off 字符串。bits 中的比特值按照从右到左的顺序接受检验 (由低位比特到高位比特)。字符串被分隔字符串分开(默认为逗号‘,’)，按照从左到右的顺序被添加到结果中。number_of_bits 会给出被检验的二进制位数 (默认为 64)。

mysql>SELECTEXPORT_SET(5,'Y','N',',',4);
->'Y,N,Y,N'
mysql>SELECTEXPORT_SET(6,'1','0',',',10);
->'0,1,1,0,0,0,0,0,0,0'

◆ FIELD(str,str1,str2,str3,...)

返回值为str1, str2, str3,……列表中的str 指数。在找不到str 的情况下，返回值为 0 。

如果所有对于FIELD() 的参数均为字符串，则所有参数均按照字符串进行比较。如果所有的参数均为数字，则按照数字进行比较。否则，参数按照双倍进行比较。

如果str 为NULL，则返回值为0 ，原因是NULL不能同任何值进行同等比较。FIELD() 是ELT()的补数。

mysql>SELECTFIELD('ej','Hej','ej','Heja','hej','foo');
->2
mysql>SELECTFIELD('fo','Hej','ej','Heja','hej','foo');
->0

◆ FIND_IN_SET(str,strlist)

假如字符串str 在由N 子链组成的字符串行表strlist 中，则返回值的范围在 1 到 N 之间。一个字符串行表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或strlist 为空字符串，则返回值为 0 。如任意一个参数为NULL，则返回值为 NULL。这个函数在第一个参数包含一个逗号(‘,’)时将无法正常运行。

mysql>SELECTFIND_IN_SET('b','a,b,c,d');
->2

◆ FORMAT(X,D)

将number X设置为格式 '#,###,###.##', 以四舍五入的方式保留到小数点后D位, 而返回结果为一个字符串。

◆ HEX(N_or_S)

如果N_OR_S 是一个数字，则返回一个十六进制值 N 的字符串表示，在这里， N 是一个longlong (BIGINT)数。这相当于 CONV(N,10,16)。

如果N_OR_S 是一个字符串，则返回值为一个N_OR_S的十六进制字符串表示，其中每个N_OR_S 里的每个字符被转化为两个十六进制数字。

mysql>SELECTHEX(255);
->'FF'
mysql>SELECT0x616263;
->'abc'
mysql>SELECTHEX('abc');
->616263

◆ INSERT(str,pos,len,newstr)

返回字符串 str, 其子字符串起始于 pos 位置和长期被字符串 newstr取代的len 字符。如果pos 超过字符串长度，则返回值为原始字符串。假如len的长度大于其它字符串的长度，则从位置pos开始替换。若任何一个参数为null，则返回值为 NULL。

mysql>SELECTINSERT('Quadratic',3,4,'What');
->'QuWhattic'
mysql>SELECTINSERT('Quadratic',-1,4,'What');
->'Quadratic'
mysql>SELECTINSERT('Quadratic',3,100,'What');
->'QuWhat'

这个函数支持多字节字符。

◆ INSTR(str,substr)

返回字符串 str 中子字符串的第一个出现位置。这和LOCATE()的双参数形式相同，除非参数的顺序被颠倒。

mysql>SELECTINSTR('foobarbar','bar');
->4
mysql>SELECTINSTR('xbar','foobar');
->0

这个函数支持多字节字符，并且只有当至少有一个参数是二进制字符串时区分大小写。
◆ LCASE(str)

LCASE() 是 LOWER()的同义词。◆ LEFT(str,len)

返回从字符串str 开始的len 最左字符。

mysql>SELECTLEFT('foobarbar',5);
->'fooba'

◆ LENGTH(str)

返回值为字符串str 的长度，单位为字节。一个多字节字符算作多字节。这意味着对于一个包含5个2字节字符的字符串， LENGTH() 的返回值为 10, 而 CHAR_LENGTH()的返回值则为5。

mysql>SELECTLENGTH('text');
->4

◆ LOAD_FILE(file_name)

读取文件并将这一文件按照字符串的格式返回。文件的位置必须在服务器上,你必须为文件制定路径全名，而且你还必须拥有FILE 特许权。文件必须可读取，文件容量必须小于 max_allowed_packet字节。

若文件不存在，或因不满足上述条件而不能被读取，则函数返回值为 NULL。

mysql>UPDATEtbl_name
SETblob_column=LOAD_FILE('/tmp/picture')
WHEREid=1;

◆ LOCATE(substr,str) , LOCATE(substr,str,pos)

第一个语法返回字符串 str中子字符串substr的第一个出现位置。第二个语法返回字符串 str中子字符串substr的第一个出现位置, 起始位置在pos。如若substr 不在str中，则返回值为0。

mysql>SELECTLOCATE('bar','foobarbar');
->4
mysql>SELECTLOCATE('xbar','foobar');
->0
mysql>SELECTLOCATE('bar','foobarbar',5);
->7

这个函数支持多字节字符，并且只有当至少有一个参数是二进制字符串时区分大小写。

⑺ 聊一聊数据建模和数据转换

最近经常有一些朋友跟我探讨未来几年关于数据方面的一些趋势，以及为什么美国最近现代数据技术栈中为什么会有那么多独角兽级别的公司出来。为什么dbt这个公司突然间这么值钱(估值超过42亿美金）？接下来谈一下我对新的这个趋势下数据建模和数据转换的一些想法和思考。

数据建模和数据转换是什么？

我们首先来简单阐述一下什么是数据建模和数据转换。咱们人实际上自从进化到人开始，就开始用数据来支撑咱们的决策了。大家通常在做决策之前会有一个基于历史的经验数据的一个模型，来判断这个决策可能产生的结果，从而指导人的行动。只不过很多这些历史的经验数据或者依赖于人在人脑中存储的各种数据，或者依赖于在纸上记录下来的数据。这些数据会在人脑中根据决策的目标进行数据的提取、转换和建模，然后被人用来做判断。

自从人类世界有了计算机，数字化逐渐在改造人类社会纪录和使用数据的方式。尤其是互联网发明以后，人与人，人与世界的交互越来越依托于互联网这个载体来完成，于是各种相关的数据都被互联网记录下来。而这些记录下来的数据，则进一步被人类使用去改善自己的生活。在这个前提下，数据建模和数据转换的工作则需要在计算机这个载体上去实现。具体来讲，就是人使用计算机上的软件工具，根据自己想要达到的目标，去找到需要的数据，进行数据处理、转换、清洗、增强，然后生成自己想要的数据模型，进而去做分析、挖掘、可视化图表、预测等等相关的工作。

ETL->ELT

我们现在回到企业使用数据做决策的场景，在提到数据建模和数据转换相关的概念时，经常被提及的两个概念就是ETL和ELT。这两个概念实际上反映了在数据化不同的时期企业在使用数据的方法和流程。E，T，L这三个字母实际上代表了数据处理的不同阶段。

在互联网尤其是移动互联网普及之前，企业用数据的典型的方式是ETL。为什么会采用ETL的方式，其原因有如下几点：

在这种情况下，企业一般会首先进行立项，确定项目实施的目标。然后根据目标去选择产品和项目实施方。产品和实施方确定后，项目实施方会有数据架构师、数据工程师、业务分析师入场。这个时候一般会进行如下的工作

我们可以看到，这种传统企业使用数据的成本相对是比较高的，而且灵活性不足。但是在过去的那个场景下，已经解决了大部分企业使用数据的需求。传统BI以及敏捷BI都是在这种场景下服务客户的，区别就是项目实施的周期和难度不同。

但是随着互联网公司的发展，数据的使用方式在从ETL向ELT这种方式在转变。其核心原因是互联网公司一开始就是构建在互联网这个基础上的，利用数据提高运营效率是互联网公司的核心竞争力。而互联网公司由于很多一开始没有成熟的业务系统，数据来源更杂，很多都是网站或者移动端用户行为的日志，使用数据则更偏向于日常运营过程中随时优化自己的运营效率，包括自己客户的转化、留存等等，以及内部资源的优化。因此传统的项目制使用数据的方式根本不适合互联网公司。

于是互联网公司使用数据的方式就变成了先把不同数据来源的数据都一股脑的先放到一个廉价的存储，要么是自建的HDFS存储，要么是公有云的对象存储。也就是先做数据集成工作，把E和L的工作前置到第一阶段。这时候数据存放的地方我们一般可以称之为数据湖，然后因为互联网公司的组织架构一般也会比较扁平，各种小团队根据自己的目标，再从这些湖里边捞自己想要的数据，边探索，边清洗，边转换。数据处理之后有时候就是一次性的报告或者问题发现，直接就触发对应的行动计划。有时候会转变为日常被调度的报表，或者线上执行的机器学习模型。而这些报表和机器学习模型，也会日常被监控，随时进行调整和优化。

在这种场景下，T的工作从过去ETL中的项目制的一个阶段完成就结束的工作变成了日常工作，数据建模和转换工作就越来越频繁和重要。就拿我们常说的数据科学工作说吧，大家统一的认知是80%的工作可能都是花费在数据准备上，也就是数据清洗、转换和基本模型构建上，后面模型的训练花费的时间倒是相对没那么多了。

互联网公司是具备规模效应的公司，因此一般会投入相当的人力来进行数据相关的工作，国内的大厂一般会配备有数据分析师、数据产品经理、数据科学家、数据工程师、软件工程师等等不同角色来保证自己能够快速、高效地利用数据。

但是回到非互联网公司，随着竞争的日益激烈，传统的固定报表需求已经不能满足传统行业类型客户对数据的需求。而且世界越来越进入一个变化是常态的世界，所谓VUKA世界。如何能够更低成本、快速地采集和利用数据就变成了传统企业面临的难题。从发展来讲，所有企业对数据的需求都越来越接近互联网类型的企业，从传统的ETL在向ELT转换，但是在ELT这种场景下，如何能够满足企业数据使用的需求就成了一个很大的问题。

企业应用数据之难

前面提到所有企业都希望自己能够更加的数据驱动，能够在日常运营中就更方便的使用数据，但是这里传统行业客户却面临很多使用数据的难题。

解决问题的思路

虽然现在面临诸多的困难，但是公有云的普及以及云原生的发展，还是给我们解决问题带来了一些可能。比如在公有云上，云端的数据仓库、数据湖可以按照容量和计算来计费，使得用户使用数据仓库的成本显着的降低。而从不同数据源进行数据的产品也日趋成熟，并且可以按照行级变化进行计费。在数据建模和转换领域，dbt对于懂SQL的人来讲，可以方便地隔离下层数据仓库的差异性，去进行基于SQL的建模和转换，并且支持协同。但是对于大部分的企业来讲，数据建模和转换应该有更简单、易用廉价的工具帮助他们解决数据使用的难题，这个工具最好具备如下的特点：

从现实基础看，目前互联网技术和公有云技术的发展，以及人工智能技术逐渐在与场景结合使实现这种工具的基础条件已经具备。正如dbt的CEO所说的，我们现在正处在数据技术的寒武纪二期，也就是在数据工具大爆发的第二个阶段，相信有更多的快速、易用、成本低廉的数据工具会产生。这也正是我们在努力做的事情。

⑻ ETL的工具应用

ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL……
开源的工具有eclipse的etl插件:cloveretl
数据集成：快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL，首先要实现ETL转换的过程。体现为以下几个方面：
1、空值处理：可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库。
2、规范化数据格式：可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式。
3、拆分数据：依据业务需求对字段可进行分解。例，主叫号 861082585313-8148，可进行区域码和电话号码分解。
4、验证数据正确性：可利用Lookup及拆分功能进行数据验证。例如，主叫号861082585313-8148，进行区域码和电话号码分解后，可利用Lookup返回主叫网关或交换机记载的主叫地区，进行数据验证。
5、数据替换：对于因业务因素，可实现无效数据、缺失数据的替换。
6、Lookup：查获丢失数据 Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性。
7、建立ETL过程的主外键约束：对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。

⑼ ETL什么意思

ETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。
一般随着业务的发展扩张，产线也越来越多，产生的数据也越来越多，这些数据的收集方式、原始数据格式、数据量、存储要求、使用场景等方面有很大的差异。

数据抽取是指把ODS源数据抽取到DW中，数据拉取，清洗完之后，就需要展示了。一般是把清洗好的数据加载到mysql中，然后在各系统中使用，或者使用Tableau直接给相关人员展示。元数据管理系统对于数据仓库来说是必须的，并且相关人员必须定时维护，如果元数据和数据仓库中的变动不同步，那么元数据系统就形同虚设。

(9)sqlelt扩展阅读

ETL所描述的过程，一般常见的作法包含ETL或是ELT，并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库，愈偏向使用ELT，以便运用目的端数据库的平行处理能力。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据，是商业智能项目重要的一个环节。

⑽ 如果根据SQL中的Group By对数值或者年份进行区间（范围）查询呢

select count(1),employyear from employee group by datepart(year,employyear) / 10

第二个你就自己写个自定义函数处理一下呗，大意也类似第一个

sqlelt

与sqlelt相关的内容