YouTube Lecture: Intro to AWS Data Engineering by Johnny Chivers

Overview

Real-Time Data Streaming: Fully managed, scalable streaming solution by AWS.
Comparison: AWS Kinesis vs Kafka (AWS Managed vs Open Source)
Scalability: Can handle hundreds to thousands of records per second
Components:
- Kinesis Data Streams: Basic building block, manage your own producers and consumers
- Kinesis Data Firehose: More managed, fewer configurations, limited output services
- Kinesis Data Analytics: Real-time processing using SQL, build real-time apps, anomaly detection
- Kinesis Video Streams: Streams video data, use cases include ML for video analysis

Producers: Various methods to put data on the stream (Kinesis producer library, SDK, CLI tools)
Consumers: Methods to read from the stream (EC2 instances, Lambda functions)
Shards: Throughput unit, manage capacity
Partition Key: For distributing data across shards
Retention Period: Data can persist from 24 hours to 365 days
Common Terms:
- Producer, Shard, Partition Key, Sequence Number, Consumer, Retention Period

Definition: Helps migrate databases to AWS with minimal downtime
Supports: Multiple database sources and targets, minimal schema conversion
Architecture: Source, Target, Replication Instance, Tasks
Replication Instance: Manages tasks
Endpoints: Define Source and Target
Common Terms:
- Replication Instance, Endpoints, Replication Tasks, Schema Conversion Tool.

Setup: Create an RDS instance, migrate to DynamoDB using DMS
Steps:
- Create RDS in Postgres, load sample data
- Set up DMS Replication Instance, configure Source/Target Endpoints
- Use DMS Task to replicate and transform data

Managed ETL Service: Extract, Transform, Load data with minimal management
Runs: Spark or Python (PySpark, Scala)
Components:
- Glue Data Catalog: Meta repository managing table and job definitions
- Crawlers: Automate data discovery and schema inference
- Jobs: Define ETL scripts