Benchmarking Real-time Processing Engines | S-Logix

List of Topics:

Benchmarking Real-time Processing Engines: A Latency and Throughput Analysis of Apache Flink vs. Spark Structured Streaming on Amazon EMR

Apache Flink

A Latency and Throughput Analysis of Apache Flink vs. Spark Structured Streaming on Amazon EMR

Use Case: Many industries (finance, IoT, e-commerce, healthcare) require real-time data processing for fraud detection, sensor monitoring, clickstream analysis, and anomaly detection. Choosing the right streaming engine—Apache Flink vs. Spark Structured Streaming—can significantly impact latency, throughput, and cost efficiency.

Objective

To benchmark Flink and Spark Structured Streaming on AWS EMR for real-time stream ingestion and analytics.

Measure latency, throughput, and scalability under varying workloads.

Provide performance-cost trade-off insights to guide architecture decisions.

Project Description

This project sets up a real-time data streaming pipeline using AWS services:
Data Ingestion: Simulated real-time streams (IoT sensors, clickstreams) pushed into Amazon Kinesis Data Streams or Kafka on MSK.

Processing Engines

Flink on EMR for event-driven, low-latency processing.
Spark Structured Streaming on EMR for micro-batch stream processing.

Benchmarking Metrics

Latency (event-to-result delay).

Throughput (records/sec).

Resource utilization (CPU, memory).

Cost (EMR usage, data transfer).

Storage & Analytics: Results stored in Amazon S3, queried via Athena/Redshift.

Visualization: Use Amazon QuickSight to compare cost-performance between Flink and Spark.

AWS Services & Technologies :

AWS Service	Role
Amazon Kinesis Data Streams / Amazon MSK (Kafka)	Real-time data ingestion layer.
Amazon EMR (with Flink & Spark)	Cluster-based execution of Flink and Spark Structured Streaming jobs.
Amazon S3	Storage of raw streaming data and processed benchmark results.
Amazon CloudWatch	Monitoring cluster performance, job latency, and throughput metrics.
AWS Lambda	Automating job orchestration and stream injection.
Amazon Athena	Query benchmark logs stored in S3.
Amazon QuickSight	Visualization of latency vs. throughput vs. cost comparisons.
Amazon Redshift (optional)	Deeper analytical queries on processed streaming data.

Related Links

PhD Guidance and Support Enquiry

Final Year Project Enquiry

General Internship Inquiry

Project Internship Inquiry

Research Internship Inquiry

Training Inquiry

Research Topics in Cloud Computing

PhD Research Proposal in Cloud Computing

Latest Research Papers in Cloud Computing

Literature Survey in Cloud Computing

PhD Thesis in Cloud Computing

PhD Projects in Cloud Computing

Leading Journals in Cloud Computing

Leading Research Books in Cloud Computing

Research Topics in Computer Science

PhD Thesis Writing Services in Computer Science

PhD Paper Writing Services in Computer Science

How to Write a PhD Research Proposal in Computer Science