「etl框架java」etl开源框架

admin 2023-03-18 10:43:08 1628

今天给各位分享etl框架java的知识，其中也会对etl开源框架进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、「开源」数据同步ETL工具，支持多数据源间的增、删、改数据同步
2、ETL工具主流产品有哪些？
3、ETL是什么,形象的介绍一下
4、常用的etl工具有哪些

「开源」数据同步ETL工具，支持多数据源间的增、删、改数据同步

bboss数据同步可以方便地实现多种数据源之间的数据同步功能，支持增、删、改数据同步，本文为大家程序各种数据同步案例。

使用Apache-2.0开源协议

通过bboss，可以非常方便地采集database/mongodb/Elasticsearch/kafka/hbase/本地或者Ftp日志文件源数据，经过数据转换处理后，再推送到目标库elasticsearch/database/file/ftp/kafka/dummy/logger。

数据导入的方式

支持各种主流数据库、各种es版本以及本地/Ftp日志文件数据采集和同步、加工处理

支持从kafka接收数据；经过加工处理的数据亦可以发送到kafka；

支持将单条记录切割为多条记录；

可以将加工后的数据写入File并上传到ftp/sftp服务器；

支持备份采集完毕日志文件功能，可以指定备份文件保存时长，定期清理超过时长文件；

支持自动清理下载完毕后ftp服务器上的文件;

支持excel、csv文件采集（本地和ftp/sftp）

支持导出数据到excel和csv文件,并支持上传到ftp/sftp服务器

提供自定义处理采集数据功能，可以自行将采集的数据按照自己的要求进行处理到目的地，支持数据来源包括：database，elasticsearch，kafka，mongodb，hbase，file，ftp等，想把采集的数据保存到什么地方，有自己实现CustomOutPut接口处理即可。

支持的数据库： mysql,maridb，postgress,oracle ,sqlserver,db2,tidb,hive，mongodb、HBase等

支持的Elasticsearch版本： 1.x,2.x,5.x,6.x,7.x,8.x,+

支持海量PB级数据同步导入功能

支持将ip转换为对应的运营商和城市地理坐标位置信息

支持设置数据bulk导入任务结果处理回调函数，对每次bulk任务的结果进行成功和失败反馈，然后针对失败的bulk任务通过error和exception方法进行相应处理

支持以下三种作业调度机制：

bboss另一个显著的特色就是直接基于java语言来编写数据同步作业程序，基于强大的java语言和第三方工具包，能够非常方便地加工和处理需要同步的源数据，然后将最终的数据保存到目标库（Elasticsearch或者数据库）；同时也可以非常方便地在idea或者eclipse中调试和运行同步作业程序，调试无误后，通过bboss提供的gradle脚本，即可构建和发布出可部署到生产环境的同步作业包。因此，对广大的java程序员来说，bboss无疑是一个轻易快速上手的数据同步利器。

如果需要增量导入，还需要导入sqlite驱动：

如果需要使用xxjob来调度作业任务，还需要导入坐标：

本文从mysql数据库表td_cms_document导入数据到es中，除了导入上述maven坐标，还需要额外导入mysql驱动坐标(其他数据库驱动程序自行导入)： mysql 5.x驱动依赖包

mysql 8.x驱动依赖包(mysql 8必须采用相应版本的驱动，否则不能正确运行)

私信回复：数据同步ETL工具

或访问一飞开源：

ETL工具主流产品有哪些？

几种 ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica等)

四种工具的比较主要从以下几方面进行比对：

1、成本：

软件成本包括多方面,主要包括软件产品, 售前培训, 售后咨询, 技术支持等。

开源产品本身是免费的，成本主要是培训和咨询，所以成本会一直维持在一个较低水平。

商业产品本身价格很高，但是一般会提供几次免费的咨询或支持，所以采用商用软件最初成本很高，但是逐渐下降。

手工编码最初成本不高，主要是人力成本，但后期维护的工作量会越来越大。

2、易用性：

DataPipeline：有非常容易使用的 GUI，具有丰富的可视化监控；

Kettle： GUI+Coding；

Informatica： GUI+Coding，有GUI，但是要专门的训练；

Talend：GUI+Coding，有 GUI 图形界面但是以 Eclipse 的插件方式提供；

3、技能要求：

DataPipeline：操作简单，无技术要求；

Kettle： ETL设计, SQL, 数据建模；

Informatica： ETL设计, SQL, 数据建模；

Talend：需要写Java；

4、底层架构：

DataPipeline：分布式，可水平扩展；

Kettle：主从结构非高可用；

Informatica：分布式；

Talend：分布式；

5、数据实时性：

DataPipeline：支持异构数据源的实时同步，速度非常快；

Kettle：不支持实时数据同步；

Informatica：支持实时，效率较低；

Talend：支持实时处理，需要购买高级版本，价格贵；

6、技术支持：

DataPipeline：本地化原厂技术支持；

Kettle：无；

Informatica：主要在美国；

Talend：主要在美国；

7、自动断点续传：

DataPipeline：支持；

Kettle：不支持；

Informatica：不支持；

Talend：不支持；

ETL是什么,形象的介绍一下

对于做过 BI 开发的朋友，ETL 并不陌生，只要涉及到数据源的数据抽取、数据的计算和处理过程的开发，都是 ETL，ETL 就这三个阶段，Extraction 抽取，Transformation 转换，Loading 加载。

从不同数据源抽取数据 EXTRACTION ，按照一定的数据处理规则对数据进行加工和格式转换 TRASFORMATION，最后处理完成的输出到目标数据表中也有可能是文件等等，这个就是 LOADING。

再通俗一点讲，ETL 的过程就跟大家日常做菜一样，需要到菜市场的各个摊位买好菜，把菜买回来要摘一下，洗一洗，切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源，做好的菜就是最终的输出结果，中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。

在开发的时候，大部分时候会通过 ETL 工具去实现，比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等，在结合基本的 SQL 来实现整个 ETL 过程。

也有的是自己通过程序开发，然后控制一些数据处理脚本跑批，基本上就是程序加 SQL 实现。

哪种方式更好，也是需要看使用场景和开发人员对那种方式使用的更加得心应手。我看大部分软件程序开发人员出身的，碰到数据类项目会比较喜欢用程序控制跑批，这是程序思维的自然延续。纯 BI 开发人员大部分自然就选择成熟的 ETL 工具来开发，当然也有一上来就写程序脚本的，这类 BI 开发人员的师傅基本上是程序人员转过来的。

用程序的好处就是适配性强，可扩展性强，可以集成或拆解到到任何的程序处理过程中，有的时候使用程序开发效率更高。难就难在对维护人员有一定的技术要求，经验转移和可复制性不够。

用 ETL 工具的好处，第一是整个 ETL 的开发过程可视化了，特别是在数据处理流程的分层设计中可以很清晰的管理。第二是链接到不同数据源的时候，各种数据源、数据库的链接协议已经内置了，直接配置就可以，不需要再去写程序去实现。第三是各种转换控件基本上拖拉拽就可以使用，起到简化的代替一部分 SQL 的开发，不需要写代码去实现。第四是可以非常灵活的设计各种 ETL 调度规则，高度配置化，这个也不需要写代码实现。

所以在大多数通用的项目中，在项目上使用 ETL 标准组件开发会比较多一些。

ETL 从逻辑上一般可以分为两层，控制流和数据流，这也是很多 ETL 工具设计的理念，不同的 ETL 工具可能叫法不同。

控制流就是控制每一个数据流与数据流处理的先后流程，一个控制流可以包含多个数据流。比如在数据仓库开发过程中，第一层的处理是ODS层或者Staging 层的开发，第二层是 DIMENSION维度层的开发，后面几层就是DW 事实层、DM数据集市层的开发。通过ETL的调度管理就可以让这几层串联起来形成一个完整的数据处理流程。

数据流就是具体的从源数据到目标数据表的数据转换过程，所以也有 ETL 工具把数据流叫做转换。在数据流的开发设计过程中主要就是三个环节，目标数据表的链接，这两个直接通过 ETL 控件配置就可以了。中间转换的环节，这个时候就可能有很多的选择了，调 SQL 语句、存储过程，或者还是使用 ETL 控件来实现。

有的项目上习惯使用 ETL 控件来实现数据流中的转换，也有的项目要求不使用标准的转换组件使用存储过程来调用。也有的是因为数据仓库本身这个数据库不支持存储过程就只能通过标准的SQL来实现。

我们通常讲的BI数据架构师其实指的就是ETL的架构设计，这是整个BI项目中非常核心的一层技术实现，数据处理、数据清洗和建模都是在ETL中去实现。一个好的ETL架构设计可以同时支撑上百个包就是控制流，每一个控制流下可能又有上百个数据流的处理过程。之前写过一篇技术文章，大家可以搜索下关键字 BIWORK ETL 应该在网上还能找到到这篇文章。这种框架设计不仅仅是ETL框架架构上的设计，还有很深的ETL项目管理和规范性控制器思想，包括后期的运维，基于BI的BI分析，ETL的性能调优都会在这些框架中得到体现。因为大的BI项目可能同时需要几十人来开发ETL，框架的顶层设计就很重要。

常用的etl工具有哪些

1、DataPipeline

DataPipeline 隶属于北京数见科技有限公司，是一家企业级批流一体数据融合服务商和解决方案提供商，国内实时数据管道技术的倡导者。

通过平台和技术为企业客户解决数据准备过程中的各种痛点，帮助客户更敏捷、更高效、更简单地实现复杂异构数据源到目的地的实时数据融合和数据管理等综合服务。

从而打破传统 ETL 给客户灵活数据应用带来的束缚，让数据准备过程不再成为数据消费的瓶颈。

2、Kettle

Kettle是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

3、Talend

Talend 是数据集成解决方案领域的领袖企业，为公共云和私有云以及本地环境提供一体化的数据集成平台。Talend的使命是致力于帮助客户优化数据，提高数据可靠性，把企业数据更快地转化为商业价值。

以此为使命，Talend的解决方案将数据从传统基础架构中解放出来，提高客户在业务中的洞察力，让客户更早实现业务价值。

4、Informatica

Informatica是全球领先的数据管理软件提供商。

在如下Gartner魔力象限位于领导者地位：数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务（EiPaaS）魔力象限。

5、DataStage

IBM® InfoSphere™ Information Server 是一种数据集成软件平台，能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphere Information Server提供了一个统一的平台，使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了图形框架，您可使用该框架来设计和运行用于变换和清理、加载数据的作业。

参考资料：DataPipeline官网-关于我们

参考资料：百度百科-Kettle

参考资料：百度百科-Talend

参考资料：百度百科-Informatica

参考资料：百度百科-DataStage

关于etl框架java和etl开源框架的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：etl框架java