百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

数据工程师必读:这5本书堪称全能教科书

bigegpt 2024-09-29 09:24 3 浏览

全文共2405字,预计学习时长7分钟



大约三年前,我开始了作为数据工程师的IT职业生涯,并尝试找出关于数据平台的日常解决方案。我一直希望在这一领域有大学教科书一样的资源,也一直在寻找。


这篇文章中,我将分享5本帮助我大概了解数据工程的书,可以让我在不确定的时候回去查阅。因为有很多本,所以我建立了一个框架,帮助你选择最适合自己的那本,并且就每本而言分享一些看法。


从哪开始呢?


我设置了两个因素,其一是“技术概念——实用性”,这意味着它是处理一般的实现概念还是具体的实现(或API),另一个是“一般性vs数据上下文性”。根据这两项因素绘制的图表如下:


下面是推荐书目及原因:


· I Hearts Logs,作者Jay Kreps:


这本书解释了日志在分布式环境中的作用。字数不多,但阅读后可以掌握数据系统(数据库或分布式数据系统,如Kafka)的核心概念。


· Designing Data-Intensive Applications,作者Martin Kleppmann:


该书讲述了如数据模型、分布式系统(如两阶段锁定)等数据系统的核心概念,以及数据处理的批处理和流式传输。


· Rebuilding Reliable Data Pipelines Through ModernTools,作者Ted Malaska:


如果你的大部分经历都与数据无关,这本书会是很好的入门书籍,引领你理解数据领域都在发生什么。该书涵盖了数据环境中的利益相关者、数据流水线、常见问题(其中许多都与数据环境相关)等内容。


· Expert Hadoop Administration,作者Sam R. Alapati:


其实关于Hadoop还有一本很好的Oreilly图书,但是我选择了这一本,原因是在过去的一年里,每当我需要一些答案时,都会一遍又一遍地阅读这本书。


· Architecting Modern Data Platform,作者Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George:


这是一本含有奇妙图像的好书。与上一本相比,这本更侧重外部Hadoop服务(服务器内存、CPU规格或网络带宽要求等)。


每本书的主要内容


有的书比较短,有的书需要具备一定水平才能读懂。你可以选择适合自己的那本开始阅读。


· I Hearts Logs (~ 50页)


作者Jay Kreps是Kafka和Samza的开发者之一,他说:我们通常以网络服务器(如Nginx)的形式感知日志,日志在数据库和分布式系统中起着核心作用,与其他替代方案相比,它在以日志为中心的设计和共识方面具有许多优势。


他还举了一些实例:“数据集成”、“实时数据处理”和“分布式系统设计”。其中之一是日志作为“单一真实来源”的作用,在许多“写”系统和“读”系统之间以集成日志的形式存在,使两者的耦合失效。


我把这本书放在首位,你可以运用Jay Kreps的观点进入另一个分布式数据系统,简化它们的基本架构。


· Designing Data-Intensive Applications (~ 550 页)


你肯定都听说过这本书。它涵盖了核心概念及其常见的实现,从早期的数据系统(RDB、NoSQL)到分布式环境(Hadoop等)。


核心概念通常会让你怀疑自己对它们的理解。在这本书中,以下核心概念得到了全面的解释:数据模型、数据结构、数据库或复制的编码和模式演化、分区、事务、分布式系统的主要问题。


这本书给了你一个新的视角,而不是仅仅告诉你如何在Hadoop上使用Lambda架构。就我个人而言,每当概念不清时,我会经常回看这本书。


· Rebuilding Reliable Data Pipelines Through ModernTools (~100 页)


这本书在Unravel网站上是免费的,通过阅读这本书,你可以知道谁是数据环境中的利益相关者,以及数据ETL(提取、转换、加载)的前景如何。书中使用了许多简单的隐喻,但足够实用,你可以在书中描述的环境中体验作为一名数据工程师的感觉。


· Expert Hadoop Administration (~ 750页)


对于那些在Hadoop服务中艰苦奋斗的专业人士来说,很难找到有价值的资源来解决实际问题,包括HDFS、Yarn、Oozie、Sqoop等。


如果你遇到类似“安装HDFS时,需要什么样的服务器配置和规格”、“如何优化Yarn内存和CPU使用率”等问题,这本又厚又详细的书会是一个很好的参考,你可以先去看看。


如果你觉得这本书的内容有点多,可以只看HDFS,Yarn,Spark架构这几个部分(~ 351页),当你需要更多知识的时候再回头来看其他部分。


· Architecting Modern Data Platforms (~ 600页)


这本书有大量关于Hadoop堆栈的技术资源,这些资源可用于构建一个可扩展的数据中心。前面那本书侧重于Hadoop服务的特性,而这本书主讲服务外部主题:Hadoop环境的服务器、网络和操作系统规范,以及虚拟化等。


对于那些对Hadoop堆栈有点兴趣并想了解更多关于“Yarn应用程序中的虚拟核心对应于物理核心还是虚拟核心(在虚拟环境中)”以及“文件系统驱动程序(etx3、ext4)或页面缓存设置如何影响HDFS性能” 的人来说,这本书是满足好奇心的无价资源。


留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

相关推荐

有些人能留在你的心里,但不能留在你生活里。

有时候,你必须要明白,有些人能留在你的心里,但不能留在你生活里。Sometimes,youhavetorealize,Somepeoplecanstayinyourheart,...

Python学不会来打我(34)python函数爬取百度图片_附源码

随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...

软网推荐:图像变变变 一“软”见分晓

当我们仅需要改变一些图片的分辨率、裁减尺寸、添加水印、标注文本、更改图片颜色,或将一种图片转换为另一种格式时,总比较讨厌使用一些大型的图像处理软件,尤其是当尚未安装此类软件时,更是如此。实际上,只需一...

首款WP8.1图片搜索应用,搜照片得资料

首款WP8.1图片搜索应用,搜照片得资料出处:IT之家原创(天际)2014-11-1114:32:15评论WP之家报道,《反向图片搜索》(ReverseImageSearch)是Window...

分享一组美图(图片来自头条)(头条美女头像)

...

盗墓笔记电视剧精美海报 盗墓笔记电视剧全集高清种子下载

出身“老九门”世家的吴邪,因身为考古学家的父母在某次保护国家文物行动时被国外盗墓团伙杀害,吴家为保护吴邪安全将他送去德国读书,因而吴邪对“考古”事业有着与生俱来的兴趣。在一次护宝过程中他偶然获得一张...

微软调整Win11 24H2装机策略:6月起36款预装应用改为完整版

IT之家7月16日消息,微软公司今天(7月16日)发布公告,表示自今年6月更新开始,已默认更新Windows1124H2和WindowsServer2025系统中预装...

谷歌手把手教你成为谣言终结者 | 域外

刺猬公社出品,必属原创,严禁转载。合作事宜,请联系微信号:yunlugongby贾宸琰编译、整理11月23日,由谷歌新闻实验室(GoogleNewsLab)联合Bellingcat、DigD...

NAS 部署网盘资源搜索神器:全网资源一键搜,免费看剧听歌超爽!

还在为找不到想看的电影、电视剧、音乐而烦恼?还在各个网盘之间来回切换,浪费大量时间?今天就教你如何在NAS上部署aipan-netdisk-search,一款强大的网盘资源搜索神器,让你全网资源...

使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建

前言回顾在上一篇文章《搭建持久化的INFINIConsole与Easysearch容器环境》中,我们详细介绍了如何使用基础的dockerrun命令,手动启动和配置INFINICon...

为庆祝杜特尔特到访,这个国家宣布全国放假?

(观察者网讯)近日,一篇流传甚广的脸书推文称,为庆祝杜特尔特去年访问印度,印度宣布全国放假,并举办了街头集会以示欢迎。菲媒对此做出澄清,这则消息其实是“假新闻”。据《菲律宾世界日报》2日报道,该贴子...

一课译词:毛骨悚然(毛骨悚然的意思是?)

PhotobyMoosePhotosfromPexels“毛骨悚然”,汉语成语,意思是毛发竖起,脊梁骨发冷;形容恐惧惊骇的样子(withone'shairstandingonend...

Bing Overtakes Google in China's PC Search Market, Fueled by AI and Microsoft Ecosystem

ScreenshotofBingChinahomepageTMTPOST--Inastunningturnintheglobalsearchenginerace,Mic...

找图不求人!6个以图搜图的识图网站推荐

【本文由小黑盒作者@crystalz于03月08日发布,转载请标明出处!】前言以图搜图,专业说法叫“反向图片搜索引擎”,是专门用来搜索相似图片、原始图片或图片来源的方法。常用来寻找现有图片的原始发布出...

浏览器功能和“油管”有什么关联?为什么要下载

现在有没有一款插件可以实现全部的功能,同时占用又小呢,主题主要是网站的一个外观,而且插件则主要是实现wordpress网站的一些功能,它不仅仅可以定制网站的外观,还可以实现很多插件的功能,搭载chro...