Mit der Einführung des Mainframes durch die IBM im Jahre 1964 begann das Zeitalter der Datenverarbeitung. Daten wurden erfasst, gespeichert, analysiert und wurden unverzichtbare Unternehmenswerte. Der Mainframe war der zentrale Ort und Heimat dieser Daten.
Mit der Einführung der PCs (Windows, OS/2) und Workstation Systemen (Unix) in den 80er Jahren und deren Integration in der Unternehmens-IT wurde aus der reinen „auf-den-Mainframe fokussierten“ IT eine heterogene IT, in denen unterschiedliche Technologien miteinander kommunizieren und Daten austauschen.
Die Datenmengen und die Anforderungen an die Daten steigen weiter. Das Internet of Things (IoT) bindet weitere Objekte an die Datenverarbeitung an, deren Informationen gespeichert und ausgewertet werden müssen.
Das Zeitalter von Cloud-Lösungen und Big Data ist angebrochen und Daten werden nicht mehr nur noch von A nach B transferiert, sondern als Messages verschickt oder permanent gestreamt.
Apache Kafka ist eine Open-Source Lösung, die sich erfolgreich als Lösung für die Form dieses Datenaustausches etabliert hat.
Die Mischung aus Einfachheit und Flexibilität als auch die Skalierungsmöglichkeiten in modernen Cluster-basierten Systemen ist wohl der Grund für die ständig wachsende Popularität von Apache Kafka.
Laut Wikipedia wurde „Kafka dazu entwickelt, Datenströme zu speichern und zu verarbeiten, und stellt eine Schnittstelle zum Laden und Exportieren von Datenströmen zu Drittsystemen bereit. Die Kernarchitektur bildet ein verteiltes Transaktions-Log.“
LinkedIn hat ursprünglich Apache Kafka entwickelt. Seit 2012 ist das System Teil der Apache Software Foundation. 2014 gründeten Entwickler das Unternehmen Confluent.
Die B.O.S. Software ist ein „Verified Partner“ von Confluent (siehe BLOG Eintrag: B.O.S. Software und Confluent – der Zusammenfluss von Mainframe, Open System und BigData).
Apache Kafka hat sich mittlerweile zu einer der wichtigsten Plattformen für hochskalierbare Systeme sowie zur Verarbeitung großer Datenmengen entwickelt und ist sehr verbreitet in modernen IT-Systemen. Der Trend zur Nutzung von Kafka in Zusammenhang von Analytics und Data Hub Projekten steigt an.
Es folgt ein kurzer Einblick in die Apache Kafka Architektur:
Das Herz des Systems bildet ein Cluster (Rechnerverbund), der aus Brokern besteht. Diese Broker speichern Nachrichten in sogenannten Topics, die in Partitionen aufgeteilt sein können. Die Partitionen speichern die Nachrichten in der Reihenfolge des Eingangs.
Anwendungen, die Nachrichten in Apache Kafka einstellen, werden Producer genannt. Das Gegenstück hierzu sind Consumer, also Anwendungen, die diese Nachrichten auslesen und verarbeiten.
Die Datenströme können mit Kafka Streams, einer JAVA Bibliothek, verarbeitet und Ergebnisse eingestellt werden. Neben Kafka Streams werden aber auch andere Streaming Methoden unterstützt.
Kafka bietet vier Hauptschnittstellen an:
- Producer API: Erlaubt das Schreiben von Nachrichten
- Consumer API: Erlaubt das Lesen von Nachrichten
- Streams API: Erlaubt das Analysieren und Transformieren von Nachrichten
- Connect API: Erlaubt die Synchronisation zweier Datensysteme, z. B. einer relationalen Datenbank und Hadoop HDFS
B.O.S. Software hat mit den Lösungen tcACCESS und tcVISION zur Integration des Mainframe in diese neuen heterogenen Umgebungen nachhaltig beigetragen.
Die Integration mit Apache Kafka wurde bereits im Mai 2017 vorgenommen. In der Zwischenzeit haben mehrere Kunden tcVISION mit Apache Kafka und Hadoop im Einsatz.
Wichtig für den Erfolg all dieser Projekte ist die Aktualität der Daten. Eine niedrige Latenzzeit beim Einspielen der Daten aus den unterschiedlichsten Datenquellen ist die wichtigste Voraussetzung für Realtime-Verarbeitungen, Data Warehouse- und BI-Analysen.
Die tcVISION Lösung erfasst die Änderungsdaten im Moment der Entstehung für unterschiedliche Datenquellen auf dem Mainframe und RDBMS Umgebungen.
Die Integration von tcVISION in Cloud Systeme sowie Big Data wird auch an anderer Stelle in diesem Blog behandelt. Verschiedene Videos stehen auf YouTube zur Verfügung, welche die Einbindung von tcVISION in diese Welten zum Thema haben.
Wie Sie die Realtime-Integration Ihrer Unternehmensdaten in Ihren Data Hub mit der Lösung „tcVISION“ effizient, mit niedriger Latenz, ohne Programmieraufwand und in Echtzeit meistern können, zeigen wir Ihnen gerne.
Die Nutzung der tcVISION Change Data Capture Technologien für die Integration Ihrer Datenquellen beschleunigt die Verwirklichung Ihres Projekts erheblich.