Big Data Hadoop und Spark Entwickler - eLearning
450,00 EUR
- 50 hours
Der Kurs 'Big Data Hadoop und Spark Entwickler' ist darauf ausgelegt, Ihnen ein tiefgehendes Verständnis der Apache Spark Grundlagen und des Hadoop-Frameworks zu vermitteln und Sie mit den Fähigkeiten auszustatten, die Sie benötigen, um als Big Data Entwickler hervorzuragen. Durch dieses Programm erlangen Sie praktische Kenntnisse des Hadoop-Ökosystems und dessen Integration mit Spark, was es Ihnen ermöglicht, riesige Datensätze effizient zu verarbeiten und zu analysieren. Erfahren Sie, wie die verschiedenen Komponenten von Hadoop, wie HDFS und MapReduce, nahtlos in den Zyklus der Big-Data-Verarbeitung passen und bereiten Sie sich auf den Erfolg in der heutigen datengetriebenen Welt vor.
Hauptmerkmale
Sprache
Kurs und Material sind auf Englisch
Niveau
Fortgeschritten für angehende Daten-Ingenieure
Zugang
1 Jahr Zugang zur Selbstlern-eLearning-Plattform rund um die Uhr
11 Stunden Videomaterial
mit einer empfohlenen Lernzeit von 50 Stunden
Praktiken
Simulationstest, Virtuelles Labor und Abschlussprojekt des Kurses
Keine Prüfung
Für den Kurs gibt es keine Prüfung, aber die Studierenden erhalten ein Zertifikat über die abgeschlossene Ausbildung

Lernergebnisse
In diesem Kurs zum Big Data Hadoop und Spark Entwickler werden Sie lernen:
Hadoop-Ökosystem
Erfahren Sie, wie Sie sich im Hadoop-Ökosystem zurechtfinden und dessen Nutzung optimieren können
Daten erfassen
Daten mit Sqoop, Flume und Kafka erfassen.
Bienenstock
Implementieren Sie Partitionierung, Bucketing und Indizierung in Hive
Apache Spark
Arbeiten mit RDD in Apache Spark
Datenstreaming
Verarbeite Echtzeit-Streaming-Daten und führe DataFrame-Operationen in Spark mit SQL-Abfragen aus
Implementierung
Benutzerdefinierte Funktionen (UDF) und benutzerdefinierte Attributfunktionen (UDAF) in Spark implementieren
Kurszeitplan

Einführung in Big Data und Hadoop
Lektion 01
- Introduction to Big Data and Hadoop
- Introduction to Big Data
- Big Data Analytics
- What is Big Data?
- Four vs of Big Data
- Case Study Royal Bank of Scotland
- Challenges of Traditional System
- Distributed Systems
- Introduction to Hadoop
- Components of Hadoop Ecosystem Part One
- Components of Hadoop Ecosystem Part Two
- Components of Hadoop Ecosystem Part Three
- Commercial Hadoop Distributions
- Demo: Walkthrough of Simplilearn Cloudlab
- Key Takeaways
- Knowledge CheckHadoop-Architektur Verteilter Speicher (HDFS) und YARN
Lektion 02
- Hadoop-Architektur Verteilter Speicher (HDFS) und YARN
- Was ist HDFS
- Notwendigkeit von HDFS
- Reguläres Dateisystem vs. HDFS
- Eigenschaften von HDFS
- HDFS-Architektur und Komponenten
- Implementierungen von Hochverfügbarkeitsclustern
- HDFS-Komponente Dateisystem-Namensraum
- Datenblockteilung
- Datenreplikationstopologie
- HDFS-Kommandozeile
- Demo: Gebräuchliche HDFS-Befehle
- Praxisprojekt: HDFS-Kommandozeile
- Yarn-Einführung
- Yarn-Anwendungsfall
- Yarn und seine Architektur
- Ressourcenmanager
- Funktionsweise des Ressourcenmanagers
- Application Master
- Wie Yarn eine Anwendung ausführt
- Werkzeuge für Yarn-Entwickler
- Demo: Durchgang durch den Cluster Teil Eins
- Demo: Durchgang durch den Cluster Teil Zwei
- Wichtigste Erkenntnisse Wissensüberprüfung
- Praxisprojekt: Hadoop-Architektur, verteilter Speicher (HDFS) und YarnDatenintegration in Big-Data-Systeme und ETL
Lektion 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETLVerteilte Verarbeitung MapReduce-Framework und Pig
Lektion 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and PigApache Hive
Lektion 05
- Apache Hive
- Hive SQL über Hadoop MapReduce
- Hive-Architektur
- Schnittstellen zur Ausführung von Hive-Abfragen
- Beeline über die Kommandozeile ausführen
- Hive-Metastore
- Hive DDL und DML
- Erstellung einer neuen Tabelle
- Datentypen Validierung von Daten
- Dateiformattypen
- Datenserialisierung
- Hive-Tabelle und Avro-Schema
- Hive-Optimierung Partitionierung, Bucketing und Sampling
- Nicht partitionierte Tabelle
- Dateneinfügung
- Dynamische Partitionierung in Hive
- Bucketing
- Was machen Buckets?
- Hive Analytics UDF und UDAF
- Weitere Funktionen von Hive
- Demo: Echtzeitanalyse und Datenfilterung
- Demo: Problem aus der realen Welt
- Demo: Datenrepräsentation und -import mit Hive
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache HiveNoSQL-Datenbanken HBase
Lektion 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBaseGrundlagen der funktionalen Programmierung und Scala
Lektion 07
- Grundlagen der funktionalen Programmierung und Scala
- Einführung in Scala
- Demo: Scala-Installation
- Funktionale Programmierung
- Programmieren mit Scala
- Demo: Grundlegende Literale und arithmetische Programmierung
- Demo: Logische Operatoren
- Typinferenz, Klassen, Objekte und Funktionen in Scala
- Demo: Typinferenz, Funktionen, anonyme Funktion und Klasse
- Sammlungen
- Arten von Sammlungen
- Demo: Fünf Arten von Sammlungen
- Demo: Operationen an List Scala REPL
- Demo: Funktionen des Scala REPL
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache HiveApache Spark - Framework der nächsten Generation für Big Data
Lektion 08
- Apache Spark Next-Generation Big Data Framework
- Geschichte von Spark
- Grenzen von Mapreduce in Hadoop
- Einführung in Apache Spark
- Komponenten von Spark
- Anwendung der In-Memory-Verarbeitung
- Hadoop-Ökosystem vs. Spark
- Vorteile von Spark
- Spark-Architektur
- Spark-Cluster in der realen Welt
- Demo: Ausführen eines Scala-Programms in der Spark-Shell
- Demo: Einrichtung der Ausführungsumgebung in der IDE
- Demo: Spark Web UI
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache Spark Next-Generation Big Data FrameworkSpark Core Verarbeitung von RDDs
Lektion 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDDSpark SQL Verarbeitung von DataFrames
Lektion 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing DataframesModellierung von BigData mit Spark MLib
Lektion 11
- Spark Mlib Modellierung von Big Data mit Spark
- Rolle des Datenwissenschaftlers und Datenanalysten bei Big Data
- Analytik in Spark
- Maschinelles Lernen
- Überwachtes Lernen
- Demo: Klassifikation mit Linearer SVM
- Demo: Lineare Regression mit Fallstudien aus der realen Welt
- Unüberwachtes Lernen
- Demo: Unüberwachtes Clustering mit K-Means
- Verstärkendes Lernen
- Halbüberwachtes Lernen
- Überblick über Mlib
- Mlib Pipelines
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Spark Mlib - Modellierung von Big Data mit SparkStream-Verarbeitungsframeworks und Spark Streaming
Lektion 12
- Überblick über das Streaming
- Echtzeitverarbeitung von Big Data
- Architekturen zur Datenverarbeitung
- Demo: Echtzeit-Datenverarbeitung mit Spark Streaming
- Demo: Erstellung einer Spark Streaming-Anwendung
- Einführung in DStreams
- Transformationen auf DStreams
- Entwurfsmuster für die Verwendung von Foreachrdd
- Zustandsoperationen
- Fensteroperationen
- Join-Operationen Stream-Dataset-Join
- Demo: Fensterverarbeitung von Echtzeit-Datenverarbeitungs-Streamingquellen
- Demo: Verarbeitung von Twitter-Streamingdaten
- Strukturiertes Spark Streaming-
- Anwendungsfall Banktransaktionen
- Architekturmodell des strukturierten Streamings und seine Komponenten
- Ausgabesenken
- APIs für strukturiertes Streaming
- Erstellen von Spalten im strukturierten Streaming
- Fensterbasierte Operationen auf Ereigniszeit
- Anwendungsfälle
- Demo: Streaming-Pipeline
- Praxisprojekt: Spark Streaming
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Stream-Verarbeitungsframeworks und Spark StreamingSpark GraphX
Lektion 13
- Spark GraphX
- Einführung in Graphen
- GraphX in Spark
- GraphX Operatoren
- Join-Operatoren
- GraphX Parallelsystem
- Algorithmen in Spark
- Pregel API
- Anwendungsfall von GraphX
- Demo: GraphX Vertex Prädikat
- Demo: PageRank-Algorithmus
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Unterstützung für das Spark GraphX-Projekt

Zielgruppe
Ideal für eine Vielzahl von Fachleuten und Personen, die ihre Karriere im Bereich der Big-Data-Analytik, Datenengineering und Datenwissenschaft vorantreiben möchten.
Voraussetzungen: Es wird empfohlen, dass Sie Kenntnisse in Core Java und SQL besitzen
Analytik-Experten
Erfahrene IT-Fachkräfte
Test- und Mainframe-Fachleute
Fachleute für Datenmanagement
Fachleute für Geschäftsanalytik
Projektmanager
Absolventen, die eine Karriere im Bereich der Big-Data-Analytik beginnen möchten
Häufig gestellte Frage

Benötigen Sie eine Unternehmenslösung oder LMS-Integration?
Haben Sie nicht den Kurs oder das Programm gefunden, das für Ihr Unternehmen geeignet wäre? Benötigen Sie eine LMS-Integration? Schreiben Sie uns! Wir werden alles lösen!