Seit Big Data die IT-Welt beeinflusst und verändert hat, wird Datenstreaming als Alternative zur traditionellen Batch-Verarbeitung betrachtet.
Dieser Blogeintrag betrachtet beide Verarbeitungsformen und beschreibt, wie die tcVISION Lösung erfolgreich sowohl in der herkömmlichen Batch-Verarbeitung als auch im modernen Datenstreaming eingesetzt wird.
Batch-Verarbeitung
Seit Beginn der Datenverarbeitung gibt es die Batch-Verarbeitung. Eine Verarbeitungsform, in der Eingabedaten eingelesen, gespeichert und dann mit den Stammdaten verarbeitet werden. Jeder, der mit der Datenverarbeitung groß geworden ist, kennt diese Verarbeitungsform. Auch heute wird sie in jedem Rechenzentrum täglich durchgeführt. Das sogenannte „Batch-Fenster“ ist strategisch wichtig und sehr oft nicht ausreichend für die Verarbeitung der Daten.
Einige unserer Kunden haben mit Hilfe von tcVISION die Problematik des zu kleinen Batch-Fensters gelöst, indem bestehende Verfahren zur Überführung von veränderten Stammdaten vom Mainframe auf offene Systeme durch direkte Replikation während der Verarbeitung ersetzt wurden. Die alten Verfahren haben die Stammdaten extrahiert und über File-Transfer an das Zielsystem übertragen. Dort wurden die Daten dann über Utilities oder eigene Anwendungen in das Zielsystem eingespielt, um beispielsweise als Grundlage für Reporting, Data Warehousing oder Analytics zu dienen.
Dieses gesamte Verfahren konnte durch die direkte Synchronisation zwischen Mainframe und Zielsystem in Echtzeit abgelöst und viel kostbare Batch-Zeit eingespart werden.
Datenstreaming
Das Online Lexikon Wikipedia beschreibt Datenstreaming wie folgt:
Mit Datenströmen (englisch data streams) bezeichnet man in der Informatik einen kontinuierlichen Fluss von Datensätzen, dessen Ende meist nicht im Voraus abzusehen ist; die Datensätze werden fortlaufend verarbeitet, sobald jeweils ein neuer Datensatz eingetroffen ist.
Der wesentliche Unterschied zur Batch-Verarbeitung liegt in der direkten Verarbeitung der Daten nach ihrer Entstehung oder Empfang. Diese Verarbeitung findet kontinuierlich und nahezu in Echtzeit statt. Dies hängt natürlich von der Anwendung ab, welche die Daten verarbeitet und analysiert. Im Open Source Bereich z.B. Apache Spark, Apache Flink, Apache Storm oder Kafka Streams. Auch die großen Player im Bereich Cloud-Computing und Big Data bieten Streaming-Anwendungen an: AWS Kinesis, Google Dataflow oder Microsoft Azure Stream Analytics.
Der Hauptvorteil des Datenstreamings ist die Aktualität der Daten, die bereits bei der Entstehung verarbeitet werden können. Insbesondere im Bereich der analytischen Untersuchungen ist dies ein großer Vorteil gegenüber der Batch-Verarbeitung, bei der die empfangenen Daten erst zwischengespeichert und dann im Ganzen verarbeitet werden.
Das Einsatzgebiet von Datenstreaming ist in allen Bereichen und Branchen zu finden. Vom Bankwesen über E-Commerce bis hin zu Einzelhandelsgeschäften werden die Streamingdaten genutzt.
Das „Internet of Things (IoT)“ ist ebenfalls ein klassisches Einsatzgebiet, da die empfangenen Sensordaten zeitkritisch verarbeitet werden. So können z.B. Wartungsarbeiten an Maschinen sofort erkannt und durchgeführt werden.
In der Praxis wird man beide der oben genannten Verarbeitungsformen wiederfinden, zumindest in den Unternehmen, die auch Big Data einsetzen. Daten, die nicht zeitkritisch sind, werden weiterhin über Batch verarbeitet und zeitkritische Daten werden über Streaming sofort und direkt ausgewertet.
tcVISION spielt im Datenstreaming eine wichtige Rolle.
tcVISION ist der Lieferant der Daten, die beispielsweise in einer Online-Verarbeitung auf einem Mainframe-System entstehen (CICS, IMS/DB, Adabas/Natural, CA IDMS) und in Echtzeit von tcVISION festgestellt (Capturing) und als Datenstrom in eine Big Data Umgebung eingestellt (Streaming) werden. Die B.O.S. Software hat bereits im Jahre 2017 diese Lösung mit Apache Kafka vorgestellt.
Unsere tcVISION Lösung ist bestens dazu geeignet, den traditionellen Mainframe (egal ob das Betriebssystem z/OS oder z/VSE heißt) mit einer Big Data Umgebung oder einer Cloud zu verbinden.
Praktische Anwendungserfahrungen beim Kunden und der BOS liegen vor und die Akzeptanz und Nachfrage sind groß. tcVISION unterstützt bereits die strategisch wichtigen Big Data Systeme und Anwendungen. Weitere werden in der Zukunft folgen.
Eine Übersicht aller unterstützter Eingabe- und Ausgabeziele finden Sie hier.