IT-Kompetenzfeld Data Driven Innovation: Berlin Big Data Center

DATENWERKZEUGE FÜR EINE NEUE, DIGITALE WELT

Tagtäglich wächst die Menge an Informationen, die wir in allen Lebenslagen produzieren: am Arbeitsplatz, beim Arzt, beim Autofahren oder beim Einkaufen. Wir sind dabei, ein vollständiges digitales Abbild unserer Realität zu erschaffen. Aber nicht nur das. Diese digitale „2nd World“ wird zunehmend umfassender, präziser und objektiver als unsere begrenzte menschliche Wahrnehmung. Sensoren können erweiterte physikalische Dimensionen erfassen, überall, 24 Stunden und in Echtzeit. Computer können diese Daten zunehmend nicht nur lesen und verarbeiten, sondern auch verstehen und daraus lernen. Augmented realities – erweiterte Realitäten werden damit möglich. Wenn man diese Daten richtig zu nutzen weiß. Dann kann man die Realität nicht nur besser verstehen, sondern sogar besser vorhersagen.

Gruppenbild Team des Berlin Big Data Centers vor der Kulturbrauerei

Big Data – keine Lösung, sondern zunächst ein Problem

Big Data ist heute so aktuell, weil wir mittlerweile über die Rechner- und Speicherkapazitäten sowie die Technologien verfügen, um diese enormen Datenmengen zu speichern und zu verarbeiten. Jedoch sind diese Daten per se weder Informationen noch Wissen. Genauso wie Öl, sind Daten zunächst ein Rohstoff, der erst durch zahlreiche Verarbeitungs- und Verfeinerungsschritte einen vielfältigen Nutzen erzeugen kann. Derzeit mangelt es an qualifizierten Data Scientists, die in der Lage sind, mit den vorhandenen, sehr jungen und unausgereiften Technologien „Big Data Analysen“ durchzuführen. Sie brauchen dafür sehr breite Kenntnisse aus verschiedenen Gebieten der Mathematik, der Informatik und der speziellen Anwendungsgebiete.

Um den Engpass an Data Scientists zu beheben, benötigen wir aber Systeme und Werkzeuge, die die komplexen Datenanalysen mit Methoden des verteilten Datenmanagements und der Künstlichen Intelligenz deutlich vereinfachen. Ein gutes Beispiel für ein solches System ist das aus Berlin heraus als Open Source entwickelte Apache Flink.

Apache Flink – eine Erfolgsstory made in Berlin

Apache Flink – oder von der Community kurz Flink genannt – ist ein international anerkanntes Open-Source-System, das auf die Verarbeitung von kontinuierlichen Datenströmen spezialisiert ist. Mit diesem können Anwendungen programmiert werden, die große und schnell eintreffende Datenmengen in Echtzeit verarbeiten und analysieren.

Flinks Entwicklungsgeschichte dient als Musterbeispiel für den erfolgreichen Weg einer Forschungsidee zu einem Softwaresystem, das mittlerweile ein Eigenleben führt und hinter dem eine stetig wachsende internationale Community steht. Aktuell wird Flink nicht nur in Universitäten und Forschungseinrichtungen verwendet, sondern auch von Unternehmen wie Zalando oder der Otto Gruppe in der täglichen Arbeit eingesetzt. Damit stellt es ein europäisches Gegengewicht auf dem sonst durch US-amerikanische Systeme und Anbieter dominierten Markt für Big-Data-Systeme dar.

Die Geschichte von Flink startete im Jahr 2008 am neu gegründeten Fachgebiet Datenbanksysteme und Informationsmanagement der Technischen Universität Berlin unter der Leitung von Prof. Dr. Volker Markl. Markls Vision von einem innovativen Ansatz für die Verarbeitung und Analyse von Big Data mündete 2010 in das Forschungsprojekt Stratosphere. Zusammen mit Wissenschaftlern der HU Berlin und des Hasso-Plattner-Instituts wurde in den folgenden Jahren ein Open-Source-System für die skalierbare Verarbeitung massiver Datenmengen entwickelt und letztlich im Jahr 2014 unter dem Namen „Apache Flink“ in die Apache Software Foundation überführt.

Bereits im selben Jahr folgte mit „data Artisans“ eine erfolgreiche Ausgründung von am Projekt beteiligten wissenschaftlichen Mitarbeitern der TU Berlin, welche mittlerweile 16 Mitarbeiter in Berlin und San Francisco beschäftigt und am kommerziellen Einsatz von Flink arbeitet. Darüber hinaus wurde Apache Flink als Basistechnologie in das 2014 gegründete Kompetenzzentrum für Big Data „Berlin Big Data Center“ eingebracht.

Das Berlin Big Data Center – Big-Data-Werkzeuge für alle

Aufgabe des Berlin Big Data Center ist es nun, verbesserte Datenanalysesysteme und -sprachen zu entwickeln, die Big-Data-Analysen gänzlich ohne Systemprogrammierungsfähigkeiten ermöglichen, das heißt die Programme automatisch auf die gewählte Ausführungsplattform übersetzen und an Rechnerarchitektur, Datenverteilung und Systemlast anpassen. Diese automatische Optimierung, Parallelisierung und Anpassung führt nicht nur zu einem breiteren Zugang und einer breiteren Anwendung von Datenanalysen in Wirtschaft, Wissenschaft und Gesellschaft, sondern nebenbei zu reduzierten Analysekosten und schnellerer Analysezeit. Nur mit diesen neuen Technologien können wir Big Data und damit die Digitalisierung auf eine breite Basis stellen.

Zur Website des Berlin Big Data Centers

Foto: GruppenBild von Flink Forward 2017 – © CC BY 2.0 by iStream

IT-Kompetenzfelder Berlins

Ähnliche Beiträge