kettleweb集成_web如何调用kettle来进行数据的采集

A. kettle有什么特点

引言

作为资深的DBA同胞你是否在工作中也存在这样的情况呢？公司要搭建数据平台，首要的工作就是把旧库的数据导入到新库中，虽然各种数据库都提供了导入导出的工具，但是数据需要存储到各个地方，MongoDB、HBase、Mysql、Oracle等各种各样的不同数据库，同步起来就有一些困难了。那么如何做好两个数据库之间、不同类型的数据库之间的相互迁移转换呢？

今天小编就常用的数据库同步、迁移转换工具进行一个汇总，以便大家在需要的时候，选择到合适的工具完成自己的工作~

一、SQLyog

SQLyog简介

SQLyog是业界着名的Webyog公司出品的一款简洁高效、功能强大的图形化MySQL数据库管理工具。使用SQLyog可以快速直观地让你从世界的任何角落通过网络来维护远端的MySQL数据库。它也是小编工作一直使用的MySQL管理客户端工具哦。

SQLyog特点

方便快捷的数据库同步与数据库结构同步工具；
易用的数据库、数据表备份与还原功能；
支持导入与导出XML、HTML、CSV等多种格式的数据；
直接运行批量SQL脚本文件，速度极快；
新版本更是增加了强大的数据迁移
二、Navicat

Navicat简介

Navicat是一套快速、可靠并且价格相当便宜的数据库管理工具，Navicat提供多达 7 种语言供客户选择，被认为是最受欢迎的数据库前端用户界面工具。它可以用来对本地或远程的 MySQL、SQL Server、SQLite、Oracle 及 PostgreSQL 数据库进行管理及开发。

Navicat支持功能

数据模型
数据传输
数据同步
结构同步
导入、导出、备份、还原、报表创建工具及计划以协助管理数据
三、Ottor

Ottor简介

Otttor是由阿里巴巴开源的一个数据同步产品,它的最初的目的是为了解决跨国异地整个机房的架构为双A，两边均可写。开发时间长达7年，并持续到现在。目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了Otter。Otter基于数据库增量日志解析，支持mysql/oracle数据库进行同步,在最新的v4.2.13已经支持mysql5.7以及阿里云提供的RDS数据库。小编已经在实际项目中使用。

Ottor特点

基于Canal开源产品，获取数据库增量日志数据。（什么是Canal,详情查看https://github.com/alibaba/canal）。
典型管理系统架构，manager(web管理)+node(工作节点)，manager运行时推送同步配置到node节点，node节点将同步状态反馈到manager上。
基于zookeeper，解决分布式状态调度的，允许多node节点之间协同工作.（otter node依赖于zookeeper进行分布式调度，需要安装一个zookeeper节点或者集群）。
Ottor运行原理

db : 数据源以及需要同步到的库
Canal : 用户获取数据库增量日志，目前主要支持mysql
manager :配置同步规则设置数据源同步源等
zookeeper : 协调node进行协调工作
node : 负责任务处理处理接受到的部分同步工作
四、ESF Database Migration

ESF Database Migration简介

ESF Database Convert是一款强大的商业数据库转换工具。支持常见数据库之间相互转换，目前网上能找到“免费”版本，如有不同数据库相互转的需求，可以用此工具解决你的问题。

官方地址为：https://www.easyfrom.net/

ESF Database Migration特点

它支持Oracle, MySQL, SQL Server, PostgreSQL, Visual Foxpro, FireBird, InterBase, Access, Excel, Paradox, Lotus, dBase, Text...之间互相转换

五、DB2DB

DB2DB简介

DB2DB 是目前经过测试速度最快、最稳定实现多种数据库之间进行数据转换的工具。支持 SQL Server、MySQL、SQLite、Access 等多种数据库类型，通过该工具可以把原来的系统，方便快速地部署在不同的数据库甚至是云端数据库下。在大数据情况下（千万级别以上），处理速度比国内外同类软件要高出300%以上。并针对云端数据库中使用最多的 MySQL 数据库进行优化，使得从源数据库复制到新数据库时保留更多的数据表属性设置。这样大大减少程序员、DBA、实施人员将大型数据库进行迁移时的等待、测试和调试时间，减少公司为了测试某系统转换到新数据库系统时的人力成本。

官方地址：http://www.szmesoft.com/DB2DB

DB2DB支持功能

任意类型数据库间进行转换；
数据库表结构自动同步；
数据表索引自动同步；
数据表字段默认值自动同步；
支持对二进制字段数据的同步；
支持各种数据库中自增型字段的处理；
支持同步前对数据表进行检查，避免出现由于数据库自身限制的原因而导致同步失败的情况；
支持把同步内容导出为 SQL 文件的功能；
支持自定义选择需要同步的数据表；
支持将配置保存为方案，以方便日后重新使用；
针对不同的机器配置，可以选择单线程或多线程同步方式。
通过灵活的方式（可按月/周/天/小时/分钟）设定程序不限次定时执行同步动作。
六、 Kettle

Kettle简介

Kettle是一款国外开源的ETL工具，使用突破性的元数据驱动方法提供强大的提取，转换和加载（ETL）功能。在Windows、Linux、Unix上均可运行，数据抽取高效稳定。Kettle 中文名称叫水壶，它凭借图形化，拖放式设计环境以及可扩展、数据集成等特点，越来越成为组织的选择。

Kettle特点

Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

七、SyncNavigator

SyncNavigator简介

号称国内做的最好的数据库同步软件，傻瓜式同步数据库，只需要你设置好来源数据库和目标数据库的账号和密码，一键开启，后台自动同步，断点续传，增量同步，几乎不占内存和CPU资源。并且还支持异构数据库，也可以同步部分表或者部分字段，都可以进行更为精准的设置操作。

syncnavigator特点

是一款专业的SQLSERVER，MySQL数据库同步软件，它为你提供一种简单智能的方式完成复杂的数据库数据同步，分发操作。

支持同构数据库同步，异构数据库同步，定时同步，增量同步，断点续传
完整支持Microsoft SQL Server 2000,2005,2008
支持Mysql4.1，5.0，5.4，5.5
支持大容量数据库快速同步。
八、DataX3.0

DataX3.0特点

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

DataX3.0特点

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader：Reader 为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

支持的数据库：

经过几年积累，DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下：

大家如有更好的工具推荐，欢迎在留言区补充~

B. KETTLE里能调用WEBSERVICE吗

您好，很高兴能帮助您

使用WSDL.exe命令行工具。
2.使用VS.NET中的Add Web Reference菜单选项
你的采纳是我前进的动力，
记得好评和采纳，答题不易，互相帮助，

C. 我将kettle集成的项目中，发现内存一直释放不掉，求解决：

同问：目前只发现怎么把内存加大。但即使加到1440M又如何一样会出错
而且我还是将job分开处理的
多次调用
目前来说是内存使用已经最小了
但还是在处理到1/3的时候就溢出了
头痛的是这个溢出不是100%出现
求解决
这个问题已经解决了
我们实在没办法
把kettle源码改掉了
kettle
4.2版中
kettle-core.jar
包下org.pentaho.di.core.logging.LoggingRegistry
第115行出现逻辑错误删除了为空的数据导致空指针异常
听说其他版本没这个问题
你可以试试

D. 开源ETL工具比较，Kettle和Talend，都有什么优势和劣势

Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器（Spoon），您可以定义以XML格式储存的流程。在Kettle运行过程中，这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte)，数据库存储库（repository）(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 开发的ETL工具——Talend 是一家主营数据集成和数据管理解决方案的企业。Talend 采用用户友好型，综合性很强的IDE（类似于Pentaho Kettle 的 Spoon）来设计不同的流程。这些流程可以在IDE内部测试并编译成Java 代码。您可以随时查看并编辑生成的Java代码，同时实现强大的控制力和灵活性。

两者都非常优秀，都属于用户友好型的交叉平台（基于Java的）工具。它们的主要差异在于Kettle 将 ELT 流程编译为 XML 格式，然而Talend Open Studio 则生成 Java 代码。

易用性：
Talend：有 GUI 图形界面但是以 Eclipse 的插件方式提供。
Kettle：有非常容易使用的 GUI，出现问题可以到社区咨询。

技术支持：
Talend：主要在美国
Kettle：在美国，欧洲（比利时，德国，法国，英国），亚洲（中国，日本，韩国）都可以找到相关技术支持人员。

部署：
Talend：创建 java 或perl 文件，并通过操作系统调度工具来运行
Kettle：可以使用 job 作业方式或操作系统调度，来执行一个转换文件或作业文件，也可以通过集群的方式在多台机器上部署。

速度：
Talend：需要手工调整，对特定数据源有优化知识。
Kettle：比 Talend 快，不过也需要手工调整，对 Oracle 和 PostGre 等数据源做了优化，同时也取决于转换任务的设计。

数据质量：
Talend：在 GUI 里有数据质量特性，可以手工写 SQL 语句。
Kettle：在 GUI 里有数据质量特性，可以手工写 SQL 语句、java脚本、正则表达式来完成数据清洗。

监控：
Talend：有监控和日志工具
Kettle：有监控和日志工具

连接性：
Talend：各种常用数据库，文件，web service。
Kettle：非常广泛的数据库，文件，另外可以通过插件扩展

E. web如何调用kettle来进行数据的采集

如下为Java调用本地的转换文件，其中String[] params就是参数，示例传递了两个参数：“123”， “234”，传递的参数全部是字符串类型，使用时需要转换成具体的格式：
[java] view plain
/**
* 调用本地的转换文件（带参数）
*
* @Description:
* @param transFileName
* @throws KettleException
* @author 李文锴
* @since：2012-8-15 下午02:58:54
*/
public static void callNativeTransWithParam(String transFileName) throws KettleException {
// 初始化
EnvUtil.environmentInit();
StepLoader.init();
// 转换元对象
TransMeta transMeta = new TransMeta(transFileName);
// 转换
Trans trans = new Trans(transMeta);
String[] params = {"123", "234"}; // 传递参数
// 执行转换
trans.execute(params);
// 等待转换执行结束
trans.waitUntilFinished();
}

F. 如何将kettle 集成到java应用

在Java应用程序中调用Kettle的Transformation

package com.ggd543.kettle.trans

import org.pentaho.di.core.util.EnvUtil
import org.pentaho.di.core.KettleEnvironment
import org.pentaho.di.trans.{Trans, TransMeta}

/**
*
* User: 刘永健
* Date: 12-3-8
* Time: 下午12:14
* To change this template use File | Settings | File Templates.
*/

object TransDemo extends App {

execTrans(args(0)) // ktr文件的全路径

def execTrans(fileName: String) {
KettleEnvironment.init()
EnvUtil.environmentInit();
val transMeta = new TransMeta(fileName)
val trans = new Trans(transMeta)
trans.execute(null) // you can pass arguments instead of null
trans.waitUntilFinished();
if (trans.getErrors > 0) {
throw new RuntimeException("There were errors ring transformation execution")
}

}
}

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>kettledemo</groupId>
<artifactId>kettledemo</artifactId>
<version>1.0</version>

<dependencies>

<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.scala-tools.testing</groupId>
<artifactId>specs_2.9.1</artifactId>
<version>1.6.9</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.scalatest</groupId>
<artifactId>scalatest_2.9.1</artifactId>
<version>1.6.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>com.typesafe.akka</groupId>
<artifactId>akka-actor</artifactId>
<version>2.0</version>
</dependency>

<dependency>
<groupId>com.typesafe.akka</groupId>
<artifactId>akka-testkit</artifactId>
<version>2.0</version>
</dependency>

</dependencies>

<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.6</source>
<target>1.6</target>
<encoding>UTF-8</encoding>
</configuration>
</plugin>
</plugins>
</build>

<profiles>
<profile>
<id>pentaho</id>
<activation>
<activeByDefault>true</activeByDefault>
</activation>
<properties>
<pentaho.kettle.version>4.2.1.1</pentaho.kettle.version>
</properties>
<dependencies>
<dependency>
<groupId>pentaho-kettle</groupId>
<artifactId>kettle-core</artifactId>
<version>${pentaho.kettle.version}</version>
</dependency>
<dependency>
<groupId>pentaho-kettle</groupId>
<artifactId>kettle-db</artifactId>
<version>${pentaho.kettle.version}</version>
</dependency>
<dependency>
<groupId>pentaho-kettle</groupId>
<artifactId>kettle-engine</artifactId>
<version>${pentaho.kettle.version}</version>
</dependency>
<dependency>
<groupId>pentaho</groupId>
<artifactId>pentaho-hdfs-vfs</artifactId>
<version>1.0.1</version>
</dependency>
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.16</version>
</dependency>
<dependency>
<groupId>pentaho-kettle</groupId>
<artifactId>kettle-test</artifactId>
<version>${pentaho.kettle.version}</version>
<scope>test</scope>
</dependency>
</dependencies>
<repositories>
<repository>
<id>pentaho</id>
<name>Pentaho Repository</name>
<url>http://repo.pentaho.org/artifactory/pentaho/</url>
</repository>
</repositories>
</profile>

<profile>
<id>scala</id>
<activation>
<activeByDefault>true</activeByDefault>
</activation>
<properties>
<scala.version>2.9.1</scala.version>
</properties>
<repositories>
<repository>
<id>typesafe</id>
<name>Typesafe Repository</name>
<url>http://repo.typesafe.com/typesafe/releases/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-compiler</artifactId>
<version>${scala.version}</version>
<scope>compile</scope>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-swing</artifactId>
<version>${scala.version}</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.scala-tools</groupId>
<artifactId>maven-scala-plugin</artifactId>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</profile>
</profiles>

</project>

G. kettle可以提供webservice接口服务吗

应该是能够调用第三方的服务，但是不能提供服务给第三方。不过web服务调用的组件很难用。

H. 怎样在javaweb中同步kettle同步过来的数据

果你用的是INNODB数据库，有一个最简单有效的调整，就是将INI文件里面的下面参数调整：原始： innodb_flush_log_at_trx_commit=1 调整为： innodb_flush_log_at_trx_commit=2 具体什么意思就不解释了，试了效果好再去找度娘

I. 求教Kettle5.2集群问题

集群允许转换以及转换中的步骤在多个服务器上并发执行。在使用kettle集群时，首先需要定义的是Cluster schema。所谓的Cluster schema就是一系列的子服务器的集合。在一个集群中，它包含一个主服务器（Master）和多个从属服务器服务器(slave)。如下图所示:

子服务器（Slave servers）允许你在远程服务器上执行转换。建立一个子服务器需要你在远程服务器上建立一个叫做“Carte”的 web 服务器，该服务器可以从Spoon(远程或者集群执行)或者转换任务中接受输入。

在以后的描述中，如果我们提到的是子服务器，则包括集群中的主服务器和从属服务器；否则我们会以主服务器和从属服务器来进行特别指定。

注意: 在集群环境下执行转化时，你必须有一个子服务器作为主服务器（master
server）而其余所有的子服务器都作从属服务器（slave server）

代理服务器主机名

设置你要通过代理进行连接的主机名

代理服务器端口

设置与代理进行连接时所需的端口号

Ignore proxy for hosts: regexp|separated

指定哪些服务器不需要通过代理来进行连接。该选项支持你使用正则表达式来制定多个服务器，多个服务器之间以'
| ' 字符来进行分割
创建cluster schema

定义转换
定义完了 cluster schema 后，下一步就是定义在集群环境下执行的转换。我们这里展现的只是一个最简单的例子，完全是为了演示而用。现实情况中的集群有可能非常复杂。

首先你像平时一样创建转换，以hop连接连个两个步骤。然后你指定第二个步骤将在集群下执行

然后选择需要使用的集群。转换如图一样显示在GUI中。

注意 Cx4显示这个步骤将在集群中运行，而这个集群中有4个从属服务器。假设我们将计算结果再次存入到数据表中

这个转换虽然定义了集群，但是我们同样可以让它在单机环境下执行，而且可以得到相同的结果。这意味着你可以使用普通的本地模式来测试它。

执行转换

要想以集群方式来运行转换或者作业，首先需要启动在Cluster schema中定义的主服务器和从属服务器，然后再运行转换或者作业。

启动子服务器
子服务器其实是一个嵌入式的名为 Carte 的小web server。要进行集群转换，首先需要启动cluster schema中的子服务器

脚本启动
kettle 提供了 carte.bat 和 carte.sh （ inux ）批处理脚本来启动子服务器，这种启动方式分为两种

使用主机号和端口号

Carte 127.0.0.1 8080
Carte 192.168.1.221 8081

使用配置文件

Carte /foo/bar/carte-config.xml
Carte url .

J. 用kettle抽取数据后怎么生成报表怎么发布到tomcat上需要添加什么代码 jsp页面怎么设置

kettle工具没用过。
1.怎么生成报表，这个不知道。
2.怎么发布到tomcat上。
我下了一个kettle，网上说这个是纯JAVA写的工具，那么你要使用一些功能，需要将kettle的一些JAR文件添加到你工程的web-inf/lib目录下。
3. jsp页面怎设置。
这个要看生成的报表是什么了。如果是一个图片。有两种方法，一个是将文件生成到服务器上，在JSP中引用该图片，另一个就是直接以流的方式写到页面上。
如果是类似EXCEL那样的系统，可识别的文件，可以用流以打开方式写到页面上。打开显示文件内容。

kettleweb集成

与kettleweb集成相关的内容