Big Data Hadoop und Spark Entwickler - eLearning

450,00 EUR

50 hours

eLearning

Der Kurs 'Big Data Hadoop und Spark Entwickler' ist darauf ausgelegt, Ihnen ein tiefgehendes Verständnis der Apache Spark Grundlagen und des Hadoop-Frameworks zu vermitteln und Sie mit den Fähigkeiten auszustatten, die Sie benötigen, um als Big Data Entwickler hervorzuragen. Durch dieses Programm erlangen Sie praktische Kenntnisse des Hadoop-Ökosystems und dessen Integration mit Spark, was es Ihnen ermöglicht, riesige Datensätze effizient zu verarbeiten und zu analysieren. Erfahren Sie, wie die verschiedenen Komponenten von Hadoop, wie HDFS und MapReduce, nahtlos in den Zyklus der Big-Data-Verarbeitung passen und bereiten Sie sich auf den Erfolg in der heutigen datengetriebenen Welt vor.

Hauptmerkmale

Sprache

Kurs und Material sind auf Englisch

Niveau

Fortgeschritten für angehende Daten-Ingenieure

Zugang

1 Jahr Zugang zur Selbstlern-eLearning-Plattform rund um die Uhr

11 Stunden Videomaterial

mit einer empfohlenen Lernzeit von 50 Stunden

Praktiken

Simulationstest, Virtuelles Labor und Abschlussprojekt des Kurses

Keine Prüfung

Für den Kurs gibt es keine Prüfung, aber die Studierenden erhalten ein Zertifikat über die abgeschlossene Ausbildung

Lernergebnisse

In diesem Kurs zum Big Data Hadoop und Spark Entwickler werden Sie lernen:

Hadoop-Ökosystem

Erfahren Sie, wie Sie sich im Hadoop-Ökosystem zurechtfinden und dessen Nutzung optimieren können

Daten erfassen

Daten mit Sqoop, Flume und Kafka erfassen.

Bienenstock

Implementieren Sie Partitionierung, Bucketing und Indizierung in Hive

Apache Spark

Arbeiten mit RDD in Apache Spark

Datenstreaming

Verarbeite Echtzeit-Streaming-Daten und führe DataFrame-Operationen in Spark mit SQL-Abfragen aus

Implementierung

Benutzerdefinierte Funktionen (UDF) und benutzerdefinierte Attributfunktionen (UDAF) in Spark implementieren

Kurszeitplan

Einführung in Big Data und Hadoop
Lektion 01
- Introduction to Big Data and Hadoop
- Introduction to Big Data
- Big Data Analytics
- What is Big Data?
- Four vs of Big Data
- Case Study Royal Bank of Scotland
- Challenges of Traditional System
- Distributed Systems
- Introduction to Hadoop
- Components of Hadoop Ecosystem Part One
- Components of Hadoop Ecosystem Part Two
- Components of Hadoop Ecosystem Part Three
- Commercial Hadoop Distributions
- Demo: Walkthrough of Simplilearn Cloudlab
- Key Takeaways
- Knowledge Check
Hadoop-Architektur Verteilter Speicher (HDFS) und YARN
Lektion 02
- Hadoop-Architektur Verteilter Speicher (HDFS) und YARN
- Was ist HDFS
- Notwendigkeit von HDFS
- Reguläres Dateisystem vs. HDFS
- Eigenschaften von HDFS
- HDFS-Architektur und Komponenten
- Implementierungen von Hochverfügbarkeitsclustern
- HDFS-Komponente Dateisystem-Namensraum
- Datenblockteilung
- Datenreplikationstopologie
- HDFS-Kommandozeile
- Demo: Gebräuchliche HDFS-Befehle
- Praxisprojekt: HDFS-Kommandozeile
- Yarn-Einführung
- Yarn-Anwendungsfall
- Yarn und seine Architektur
- Ressourcenmanager
- Funktionsweise des Ressourcenmanagers
- Application Master
- Wie Yarn eine Anwendung ausführt
- Werkzeuge für Yarn-Entwickler
- Demo: Durchgang durch den Cluster Teil Eins
- Demo: Durchgang durch den Cluster Teil Zwei
- Wichtigste Erkenntnisse Wissensüberprüfung
- Praxisprojekt: Hadoop-Architektur, verteilter Speicher (HDFS) und Yarn
Datenintegration in Big-Data-Systeme und ETL
Lektion 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETL
Verteilte Verarbeitung MapReduce-Framework und Pig
Lektion 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig
- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and Pig
Apache Hive
Lektion 05
- Apache Hive
- Hive SQL über Hadoop MapReduce
- Hive-Architektur
- Schnittstellen zur Ausführung von Hive-Abfragen
- Beeline über die Kommandozeile ausführen
- Hive-Metastore
- Hive DDL und DML
- Erstellung einer neuen Tabelle
- Datentypen Validierung von Daten
- Dateiformattypen
- Datenserialisierung
- Hive-Tabelle und Avro-Schema
- Hive-Optimierung Partitionierung, Bucketing und Sampling
- Nicht partitionierte Tabelle
- Dateneinfügung
- Dynamische Partitionierung in Hive
- Bucketing
- Was machen Buckets?
- Hive Analytics UDF und UDAF
- Weitere Funktionen von Hive
- Demo: Echtzeitanalyse und Datenfilterung
- Demo: Problem aus der realen Welt
- Demo: Datenrepräsentation und -import mit Hive
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache Hive
NoSQL-Datenbanken HBase
Lektion 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBase
Grundlagen der funktionalen Programmierung und Scala
Lektion 07
- Grundlagen der funktionalen Programmierung und Scala
- Einführung in Scala
- Demo: Scala-Installation
- Funktionale Programmierung
- Programmieren mit Scala
- Demo: Grundlegende Literale und arithmetische Programmierung
- Demo: Logische Operatoren
- Typinferenz, Klassen, Objekte und Funktionen in Scala
- Demo: Typinferenz, Funktionen, anonyme Funktion und Klasse
- Sammlungen
- Arten von Sammlungen
- Demo: Fünf Arten von Sammlungen
- Demo: Operationen an List Scala REPL
- Demo: Funktionen des Scala REPL
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache Hive
Apache Spark - Framework der nächsten Generation für Big Data
Lektion 08
- Apache Spark Next-Generation Big Data Framework
- Geschichte von Spark
- Grenzen von Mapreduce in Hadoop
- Einführung in Apache Spark
- Komponenten von Spark
- Anwendung der In-Memory-Verarbeitung
- Hadoop-Ökosystem vs. Spark
- Vorteile von Spark
- Spark-Architektur
- Spark-Cluster in der realen Welt
- Demo: Ausführen eines Scala-Programms in der Spark-Shell
- Demo: Einrichtung der Ausführungsumgebung in der IDE
- Demo: Spark Web UI
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache Spark Next-Generation Big Data Framework
Spark Core Verarbeitung von RDDs
Lektion 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDD
Spark SQL Verarbeitung von DataFrames
Lektion 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing Dataframes
Modellierung von BigData mit Spark MLib
Lektion 11
- Spark Mlib Modellierung von Big Data mit Spark
- Rolle des Datenwissenschaftlers und Datenanalysten bei Big Data
- Analytik in Spark
- Maschinelles Lernen
- Überwachtes Lernen
- Demo: Klassifikation mit Linearer SVM
- Demo: Lineare Regression mit Fallstudien aus der realen Welt
- Unüberwachtes Lernen
- Demo: Unüberwachtes Clustering mit K-Means
- Verstärkendes Lernen
- Halbüberwachtes Lernen
- Überblick über Mlib
- Mlib Pipelines
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Spark Mlib - Modellierung von Big Data mit Spark
Stream-Verarbeitungsframeworks und Spark Streaming
Lektion 12
- Überblick über das Streaming
- Echtzeitverarbeitung von Big Data
- Architekturen zur Datenverarbeitung
- Demo: Echtzeit-Datenverarbeitung mit Spark Streaming
- Demo: Erstellung einer Spark Streaming-Anwendung
- Einführung in DStreams
- Transformationen auf DStreams
- Entwurfsmuster für die Verwendung von Foreachrdd
- Zustandsoperationen
- Fensteroperationen
- Join-Operationen Stream-Dataset-Join
- Demo: Fensterverarbeitung von Echtzeit-Datenverarbeitungs-Streamingquellen
- Demo: Verarbeitung von Twitter-Streamingdaten
- Strukturiertes Spark Streaming-
- Anwendungsfall Banktransaktionen
- Architekturmodell des strukturierten Streamings und seine Komponenten
- Ausgabesenken
- APIs für strukturiertes Streaming
- Erstellen von Spalten im strukturierten Streaming
- Fensterbasierte Operationen auf Ereigniszeit
- Anwendungsfälle
- Demo: Streaming-Pipeline
- Praxisprojekt: Spark Streaming
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Stream-Verarbeitungsframeworks und Spark Streaming
Spark GraphX
Lektion 13
- Spark GraphX
- Einführung in Graphen
- GraphX in Spark
- GraphX Operatoren
- Join-Operatoren
- GraphX Parallelsystem
- Algorithmen in Spark
- Pregel API
- Anwendungsfall von GraphX
- Demo: GraphX Vertex Prädikat
- Demo: PageRank-Algorithmus
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Unterstützung für das Spark GraphX-Projekt

Zielgruppe

Ideal für eine Vielzahl von Fachleuten und Personen, die ihre Karriere im Bereich der Big-Data-Analytik, Datenengineering und Datenwissenschaft vorantreiben möchten.

Voraussetzungen: Es wird empfohlen, dass Sie Kenntnisse in Core Java und SQL besitzen

Analytik-Experten

Erfahrene IT-Fachkräfte

Test- und Mainframe-Fachleute

Fachleute für Datenmanagement

Fachleute für Geschäftsanalytik

Projektmanager

Absolventen, die eine Karriere im Bereich der Big-Data-Analytik beginnen möchten

Beginnen Sie jetzt

Häufig gestellte Frage

Benötigen Sie eine Unternehmenslösung oder LMS-Integration?

Haben Sie nicht den Kurs oder das Programm gefunden, das für Ihr Unternehmen geeignet wäre? Benötigen Sie eine LMS-Integration? Schreiben Sie uns! Wir werden alles lösen!

Big Data Hadoop und Spark Entwickler - eLearning

Hauptmerkmale

Lernergebnisse

Kurszeitplan

Zielgruppe

Häufig gestellte Frage

Kursdetails

Was ist Hadoop in Big Data?

Funktionen von Hadoop

Anwendungsfälle von Hadoop in Big Data

Vorteile von Hadoop

Was ist Spark bei Big Data?

Anwendungsfälle von Apache Spark in Big Data

Wie Hadoop und Spark sich gegenseitig ergänzen

Kursformat

Zahlung und Sonstiges

Was ist Hadoop in Big Data?

Funktionen von Hadoop

Anwendungsfälle von Hadoop in Big Data

Vorteile von Hadoop

Was ist Spark bei Big Data?

Anwendungsfälle von Apache Spark in Big Data

Wie Hadoop und Spark sich gegenseitig ergänzen

Was ist E-Learning?

Wie lange habe ich Zugang zur E-Learning-Plattform?

Wie lange wird es dauern, den Kurs zu beenden?

Was passiert, nachdem ich einen Kurs gekauft habe? Wie beginne ich den E-Learning-Kurs?

Einen Kauf tätigen

Weitere Fragen