Datenquellen

Am Anfang des Datenladeprozesses steht die Datenquelle, doch warum wird welche Datenquelle gewählt und welche ist zu bevorzugen? Wird eine Schatten-IT aufgebaut oder kritische Systeme entkoppelt? Andreas und Marcus sprechen von ihren Erfahrungen und Meinungen zu Datei-Schnittstellen, Datenbanken und Data Lakes. Zum Schluss fassen Sie dann noch ihre Erkenntnisse zu “drei Dinge für den Heimweg” zusammen.

Die Musik im Intro und Outro stammt aus dem Stück “There It Is” von Kevin MacLeod und steht unter CC BY 3.0 Lizenz
https://freemusicarchive.org/music/Kevin_MacLeod/Funk_Sampler/There_It_Is

00:00:24 Marcus 

Hallo Andreas. 

00:00:25 Andreas 

Hallo Marcus. 

00:00:26 Marcus 

So heute in Folge 2 wollen wir mal vorne bei der ganzen Sache anfangen. Ich weiß meistens fängt man normalerweise BI mit der Anforderung an, aber für uns Techniker ist es ja meistens vorne die Datenquelle und ich habe mir gesagt wir könnten uns mal über Datenquellen unterhalten, was uns so unterkommt wie unsere Meinung zu den verschiedensten Datenquellformate sind wir gucken, vielleicht kommen wir auch auf die Systeme, die dahinterstehen und ja, also für mich aus meiner Warte her. Früher, als wir ja so ein eigenes System betreut haben, haben wir zu unseren externen Partnern immer Datei Schnittstellen gemacht. Das war sehr komfortabel, und wir wollten auch nicht, dass im Prinzip ein anderes System bei uns auf die Datenbank zugreift, weil im Prinzip die Datenbank immer das Herz unserer Applikation war und wenn jemand jetzt eine Last auch dieses System ausführt oder auf diese Datenbank ausführt, dann hätten eben alle Beteiligten geleitet. Deswegen war es für uns schön, zeitgesteuert Datei Exporte zu machen, denen die Fremdsystem zur Verfügung zu stellen und dann könnten sie eben damit selber Haushalten, zum Beispiel das externe DWH. Was mir jetzt aber jetzt in meiner jungen Vergangenheit auffällt, ist wir haben ja damit kleineren und mittelständischen Unternehmen zu tun, dass wenn da jetzt ein Kunde kommt und mir sagt, er hätte nur Dateien zur Verfügung, dass ich so das Gefühl habe, er hat noch nicht das richtige Commitment für das Thema BI und warum dürfen wir eigentlich nicht auf die Datenbank, auf das vor System zugreifen? Ich hab mich auch schon mit dem einen oder anderen mal so in der Community unterhalten die sagt auch also wenn es so mehr Richtung Controlling geht, oder so dass man da Lösungen aus verschiedensten Dateien zusammenbaut und nicht immer Datenbank Zugriff hat. Und für mich ist es aber eben immer noch so dieser Punkt hat man, denn das kommt man fürs BI wie was kommt dir denn so unter Andreas, was ist denn so deine Meinung zu Dateien, bevor wir vielleicht mal auf verschiedenste Formate eingehen? 

00:02:40 Andreas 

Ja Marcus, das ist eigentlich mit das schwierigste Thema, wie man das Thema überhaupt angehen kann, also mein Problem dabei ist ja immer viele Kunden und da sagst du schon das Richtige ist das Thema Commitment also ich erwarte ja meist nicht jemanden, der mir sagt ich hab jetzt die perfekte Lösung, aber man sollte zumindest im Vorfeld der über das Thema wie beschaffe ich mir die Daten oder wie bekomme ich sie zumindest so klären, dass jedem klar ist, wie es geht und was wäre eigentlich ein guter Weg? Da kommen nachher ja auch noch sowas vielleicht ein guter oder ein weniger guter Weg ist. Aber für mich ist das größte Problem eigentlich eher das meistens ist früher in den Fachabteilungen angefangen hat. Ich bin ja noch so ein altes MIS Kind und wir sind immer über die Fachabteilung bisschen an der IT vorbei und dann hieß es meine ja, wir können Folgendes liefern. Aber das müssen wir quasi in unserem Fachbereich machen. Weil die IT ist schwer mit zu integrieren in dieses ganze Portfolio. Also heißt es du hast dann meist irgendwas als Excel Export CSV oder was auch immer und das war nie so, ich will das mal vorsichtig sagen, es war nicht so stabil, wie man sich das hätte wünschen können. Und das war zumindest in den Anfängen war das immer sehr schwierig, weil gerade dieses Instabile liefern von Daten ist ein großes Ärgernis, was natürlich auch Mehraufwand im Projekt deutlich erzeugt, den am liebsten keiner bezahlen möchte, wie es immer so ist. Wie mit einer Dokumentation aber das lassen wir heute mal weg. 

00:04:01 Marcus 

Ja, genau. Bei mir ist es nämlich so, dass ist so der Bruch in der Automatisierung für mich oder? Im Fall also wenn du so wie du es beschrieben hat, dass jemand was anliefert oder so und tatsächlich ist vielleicht sogar manuell tätigt man, könnte eben den Prozess voll automatisieren. Man konnte eben auf Daten zugreifen, die bereitgestellt wurde, und das ist dann auch so. Dieser Bruch, den ich dann sehe wir haben es dem damals in unserer großen Lösung im Telekommunikationsumfeld so gehabt, dass wir wirklich Datei angeliefert haben und die Stand da halt einfach jeden Tag, der der Vortages Export und danach konnte das System da selber drüber verfügen, da war es wenigstens automatisiert. Es war auch stabil, weil ja man hat einmal die Spezifikationen der Schnittstelle gemacht hat, beschrieb. Also da war durchaus gängig CSV Dateien man hat gesagt ok, 1, 2,  3 Spalte, vielleicht hat man auch den Header in jeder Datei mitgeliefert und wir sind auch manchmal hingegangen und haben gesagt okay, wir teilen uns auf 2 Dateien auf. Das heißt, in der einen Datei war das Datenfile drin und den anderen war so eine Art Bestätigungsformat drin. Wo dann eben drin stand ich habe dir heute um die und die Uhrzeit. So und so viele Zeilen übermittelt, sodass man das eben als System gegen prüfen konnte und konnte feststellen okay, ich hab jetzt so und so viel Zahlen importiert und in der Metadaten Datei stellen dann auch dabei, wie viele Zeilen dass sein sollten und dann mappte das und dann war es eben ok oder es musste eben Alarm angehen und das andere mit dem Anliefern ja, das sind dann diese Datenquellen häufig so, die man vielleicht als Bindeglied sieht. Excel irgendwie Informationen, die es in keinem System wirklich gibt, oder eine Struktur, die man abbilden möchte. Und hat kein System, was das wirklich aufnehmen kann, da wird ganz gerne ja Excel genutzt, weil man es eben da schön grafisch aufbereiten kann in der Form farbige Zellen, damit der Leser ist eben sehr gut erkennen kann und das ist ja dann auch wieder so der Punkt, den es dann mal eben eingeholt hat. Die Verständlichkeit einer Datei Struktur und es gab ja auch mal diesen XML hype, wo man eben durch diese Tag Notation, dass ich eben so n Tag sage und sagt das, was zwischen diesen Tag steht, ist jetzt der Vorname, das ist der Nachname, dass die Bestellnummer, war es plötzlich eine Notationssprache oder eine Ausweisung des der Informationen der Daten, dass sie eben ein Mensch gut lesen konnte, aber genauso gut auch eine Maschine gut erkennen konnte, was ich bloß dabei wieder merke,  das geht natürlich ganz schön auf die Performance, also das aufparsen von so einer XML Datei oder so einer Json Datei, wenn man jetzt mal in die Java Script Notation geht und sagt wir lassen mal Start-Tag, End-Tag raus und haben da eher geschweifte Klammern und mit ne Javascript Notation die Elemente markiert ja, es ist es ist schön, dass die Datei ist selber beschreibt. Das lassen sich auch Strukturen damit abbilden, die eben nicht in der flachen Tabelle wie in der CSV Datei Abbildbar sind. Aber ja, da hängt so viel Performance dran, um das dann wieder zu entschlüsseln und mein Eindruck ist, das macht häufig keinen Spaß, dass wirklich aufzuparsen in der Form von Performance. Hast du da noch Einblicke drin oder Meinungen zu? 

00:07:35 Andreas 

Eigentlich hat man aus der Vergangenheit gelernt finde ich also diese Datei Anlieferung fand ich schon persönlich nicht so schlecht, weil sie hatte den Vorteil du musstest das Vorsystem nicht eingreifen, was oft auch nicht erwünscht war und ich hatte den Vorteil wir haben ja definiert was was bekomme ich, das habe ich mir dann entsprechend auch so abholen können. Das heißt, die Definition, was in dieser Datei drin ist, auch mit Prüfsummen ähnlichen war eigentlich klar eindeutig das war für mich schon ok, weil du dadurch den Verwaltungsaufwand IT technisch hast du ziemlich minimiert, das heißt keiner musste Berechtigung setzen. Du weißt ja, wie das immer so ist, gerade wenn man so gerade etwas höher entwickelte Systeme hatte, die SAP oder irgendein anderes entsprechendes ERP System, das war schon extrem anstrengend, da einen Zugriff zu bekommen. Das es Funktioniert hat. Ich fand diese Datei Anlieferung war ok, ich fand aber die zweite Stufe, dass man gesagt hat so ich kann dir folgende Sichten in einer Datenbank bereitstellen, die du dann dir holen kannst. Das fand ich zum Beispiel, hatte aber für mich den Charme. Das Thema Performance war wieder etwas anderes, weil wenn das System ist, gut liefert, habe ich deutlich weniger Verschnitt, also Verschnitt heißt für mich ich muss es mir nicht holen. Irgendwo dazwischen packen, umbauen das ist so ein bisschen der Küchentisch wurde kleiner, den ich brauche, um es zu bearbeiten. Weißt du, ich muss es nicht erst links hin packen, das sind die Dateien muss aufbereiten. Diese zwischen Schritte wurden deutlich weniger und auch der Aufwand hat sich dadurch reduziert und so eine Fehllieferung konnte eigentlich nicht passieren, weil das System hat das ziemlich gut abgefangen, wenn es eine Sicht war und bei den Dateien habe ich das auch schon mal gehabt. Dann hat der Kunde das war alles automatisiert, dann ist aber irgendwann so ein Export Job mal abgebrochen und dann hast du so eine unvollständige Datei und bevor sie liest Marcus, wo du vorhin sagte bitte, ich habe dir folgende 743805 Zeilen geliefert musst du erst prüfen stimmt das mit dem was jetzt da kommt und dann erst laden und nicht umgekehrt? Und das war schon immer wieder einen Aufwand und beim View war es halt so. Der hatte den Charme, der war schon korrekt es sei denn dann hinten irgendwo eine Transaktion gerade das Ganze blockiert. Aber dann hab ich auch so lange gewartet. Das war auch für mich ok, bis er mir das geliefert hat also, ich fand den Schritt nachher auf das System direkt gehen zu können und wir haben das bei aktuellen Kunden so. Du kriegst dann eine, wenn du so willst Datenschicht, die sie dir liefern. Hier sind die Sichten nur die bekommst du das ist so wirklich der stringente Weg. Andere Kurden sagen ja hier, Sie kennen auch das System. Holen Sie sich die Daten selber ab per View oder ähnliches, was natürlich dann wieder immer bedeutet, möglichst nicht in das Transaktionssystem einzugreifen. Das kam nicht so cool an. Und damit ist, falls Sie diese Brücke wo gehe ich hin? Mir ist, wäre es immer am liebsten, wenn der Kunde sagt, Ich habe folgendes Datahandling ich möchte nur, dass sie hier kriegst du die Töpfe und wir sind, was die Gefahr eines Blockierens, des Servers oder Auslastens, dass das möglichst minimiert ist, dass ich quasi dich bei deinem täglichen Business nicht störe, sondern mir nur die Informationen hole, die du mir bereitstellst gerne auch auf einem separaten System, was immer deine Anforderungen sind, aber für mich war immer wichtig zu verstehen. Machen alle mit und du hattest ja zu Anfang das Thema wer ist alles in diesem Commitment dabei? Also wollen wir das dann auch wirklich so, das ist nicht so eine Art Schatten BI wird, wo keiner sagt a Wir wollen das zwar, aber die anderen dürfen es noch nicht wissen, das möchte ich ja vermeiden also ich möchte schon, dass möglichst viele davon überzeugt sind, dass das unterstützt, also brauchst du möglichst viele Entscheider die dabei sind und nicht immer nur so eine kleine Abteilung gesagt, Ich brauche das jetzt ganz dringend, aber lassen sie uns mal was anderes machen, weil auch hier wieder die Vergangenheit bei MIS war das nur so. Wir kamen mit unserem kleinen Beiboot aber die hatten eigentlich schon ganz andere Analyse Lösung im Haus, aber wir wollten hier schnell was haben und da brauchen wir sie und quasi eine zweite BI Lösung neben der anderen, die im großen Konzern schon unterwegs war. Das war immer so der erste Einstieg um eine Chance auf mehr zu haben, was nicht immer so geglückt ist. 

00:11:44 Marcus 

Ja, ja, ja ja besonders ist dann auch die Wut von anderen Stakeholdern sehr groß, wenn sie merken, dass man im Prinzip hinterrücks ein Tool eingeführt hat. Ich finde es auch gut, wie du es gerade angesprochen hast mit diesen Datenbanken, weil wir im Prinzip die Performance oder ist ja so n einfaches Thema. Wir haben bei dem ein oder anderen Kunden, dass man sagt okay, wir haben Server, da können wir jetzt jeden Tag das Backup förmlich testen. Wir machen Hot Standby oder so bringen die Datenbank aus dem Live System auf dem Analyse Server auf dem Backup Server, den man dann eben für die Analyse ausnutzen kann und belastet damit auch gar nicht sein Vorsystem und genauso wie du es schon sagst so ne Tabelle oder so ne View, die hat ja einiges an Informationen auch wieder mit dabei mit Datentypen ich habe ne Abfrage-Engine, wo ich gezielt meine Zeilen die ich haben will raus filtern kann. Also ich fand, finde ich auch immer sehr angenehm was ich aber eben im Prinzip gerade merke oder was ich Interessant findet zu beobachten ist eben dieses Thema mit dem Data Lake, der Grad in aller Munde ist bei Microsoft und auch bei uns in den Umfeld von der Cloud haben, die da einiges gemacht in der Hinsicht oder planen es noch zu machen im Rahmen von Dynamics, dass man eben die Daten, die man für die Analyse braucht, Auslagen kann in seinen Data Lake, das heißt das also ich hab eine Web Anwendung bekommen, ich kann auf diese Web Anwendung meinem CRM System nicht direkt auf die Daten zugreifen, oder je nachdem welches System man hat, hängt das ein bißchen von ab, wenn man jetzt ein CRM System hat, dann gibt es da die Dataverse Schnittstelle das fühlt sich schon wieder an wie eine Datenbank ist ganz OK, ansonsten hat man häufig bei Business Central aktuell nur eine Web Service ne Web API bin ich nicht ganz so der der Freund von weil ich so das Gefühl hab wir haben es eben schon mit dem aufparsen der Daten ist ähnlich beim Webservice so angelegt und gefühlt ist das nicht auch große Datenmengen ausgelegt, sondern eher so transaktional, Ich möchte ein anderes System dran hängen, was sich nicht über große Datenmengen unterhält, sondern über so Einzeltransaktion und dann etwas, was wir ein bisschen gefühlt in der Planung ist, ist eben immer dieser Export in den Data Lake rein und da hat sich ja jetzt einiges getan in der Hinsicht, dass da wirklich dann immer Dateien im Data Lake an angelegt werden. Auch das erste Mal verwundert, als ich in Power BI mit den Data Flows zu tun hatte und man mir erzählte, dass in den die Data Flows die Daten als CSV Datei in den Data Lake rein speichern und jetzt merkt plötzlich wieder ja, wir gehen irgendwie wieder zurück zu diesem Datei Schnittstellen die Begründung auch relativ klar es ist ein sehr kompatibles, Format für die verschiedensten Applikationen, das ist leicht austauschbar. Die ganze Data Science Geschichte, die es darum gibt, mag es mit CSV Dateien über Python oder R zu parsen oder eben eine andere Technologie drauf zu setzen. Wieso ein Spark Databricks Cluster oder von Microsoft ist ja das Synapse als Deckmantel, die dann eben auf diesen Dateien wieder arbeiten und mir gegebenenfalls sogar dazwischen wieder so eine Art Datenbank suggerieren oder bereitstellen, die ich dann wieder per SQL abfragen kann und ja, irgendwie spannend wie immer diese Wechselwirkung da ist zwischen den verschiedensten Wegen, die man eingeht, man dachte Ok Datenbank ist das große Goal, das große Ziel was wir haben und jetzt in der modernen Cloud Welt sind wir doch wieder eher dabei, dass wir uns Dateien in den Data Lake reinlegen oder es uns empfohlen wird zu tun. 

00:15:42 Andreas 

Ja aber Marcus, das wird er ja also, das wird ja hier suggeriert, dass das wieder so leicht ist wie das von früher her kennt, also das ist wieder wie eine Datei anfühlt und dadurch viele Systeme miteinander verknüpfen können und diese Brücken dadurch schaffst. Was mir dabei immer wieder auffällt, ist so viele Techniken, wie man da neu entwickeln kann wie immer das ist und du weißt ja selbst fühlt sich dann plötzlich an wie eine Textdatei ist alles wieder toll. Aber die alten Probleme von früher sind wieder da, sei es Typen, Konvertierung passt das Ganze, sind der Sonderzeichen drin, also das ganze Datahandling? Wir haben bei einem Kunden gehabt, dann ging das quasi schon wieder los, je nachdem, was das vor System für Sonderzeichen benutzt hat für ihre Datenspeicherung, was plötzlich im Data Lake ein Problem, weil der natürlich auch gewisse Sonderzeichen braucht, damit er das trennen kann. Das ist eine Spalte, was es nicht und also ich finde die die Probleme verlagern, sich nur immer wieder mal auf eine andere Technologie auf einen anderen Motor wie es immer so schön heißt, das Macht das Ganze nicht besser aber es ist zumindest der Punkt und ich verstehe wollen wir natürlich ein Data Lake nimmt weil hier auch natürlich das Thema Kosten hinzu kommen denn wenn du so ne tolle Datenbank betreibt, auch später in der Cloud oder auf deinem eigenen IT Netz wenn du so willst bedeutet das ja immer dieses Blech muss bezahlt werden und dieses Blech muss auch schnell sein und das kostet halt immer immer Geld. Die einen lassen sich das durch Transaktions Units bezahlen, die anderen sagen ich muss alle 2 Jahre ein neues Blech kaufen, weil die Daten Menge ja auch extrem explodiert. Man speichert ja wirklich alles, das schon rein und der Data Lake schafft es das kostengünstig für dich abzulegen, aber da fängt für mich immer so dieses Thema an und das hatten wir letztens auch bei diesem Big Data World halt das Thema kalte und warme Daten diesmal so scheinen Hot and Cold und schon geht es für mich los, wenn ich dann mit meinem Vater drüber reden würde, sagen Hot and Cold habe ich verstanden, dass eine verbrennt sich die Finger bei dem anderen wird vielleicht kalt, ja, aber das betrifft jetzt in diesem Fall sogar Daten nicht mehr, da mein Essen und beim Data Lake, das ist für mich so ein Ding der bewegt sich für mich eher Richtung kalt. Also soll heißen so richtig schnell komme ich da nicht dran, es sei denn, es gibt wieder kluge Systeme, die sich als Meta-Schicht dazwischen packen. Ich kenne das so, zum Beispiel von Datamir, die dann so ein so ein Layer zur Verfügung stellen, mit dem Du das wieder wie Tabellen anfassen kannst. Also am Ende kommt für mich immer wieder so ein bisschen das Thema Tabelle raus nur wieviel von diesen Daten brauchst du immer sofort im Zugriff und wie viele kannst du so ein bisschen in so einem diesen sogenannten kalten Pfad packen wir es mal so schön heißt ich brauch dich nicht jeden Tag. Ja, auch das Thema Datenspeicherung, was du als Analyse brauchst, ist ja auch bei Power ja immer so ein Thema das Ding wächst und wächst und wächst und wächst und wenn du dann Retailer hast, der wird dir dann irgendwann sagen ja, dass fing alles so toll an. Ich habe hier so eine tolle günstige Lizenz, ne? Diesen günstigen Einstiegspreis aber irgendwann ist das dann auch mal am Ende und dann musst du dir schon überlegen wie trenne ich das ganze oder kann ich das jetzt in diese neuen Hybrid Technologie nutzen in Power BI? Ist das für dich ein Weg? Und schon bist du wieder dabei du brauchst immer jemanden, der am Zahn der Zeit ist und die neuen Technologien beherrscht, versteht und dir auch erklären kann, wie du sie effizient bei dir einsetzen kannst. Marcus sonst würde uns ja keiner Fragen. Könnt ihr alles, können wir alle machen. 

00:19:08 Marcus 

Ja, stimmt also aber auch genau das was du sagst mit dem kalt und warm ist ja allein schon am Anfang ein oder braucht man als Einschätzung für das Pricing weil ein Data Lake, je nachdem, ob ich eben annehme ist Cold oder ist Warm unterschiedliche Preise verlangt und in unserer einfachsten Sicht haben wir auch schon mal darüber gesprochen ist ja vieles dieses Full Load verfahren, das heißt, ich lade immer alle Daten also oder zumindestens mein Daten Modell refresht sich komplett mit allen Daten, die es im Zugriff haben kann. Das kann sein, dass ich veraltete Daten oder ja Daten, die mehrere Jahre zurückliegen, nicht mehr mit Laden will, aber dennoch greife ich im Prinzip jedes Mal auch mal ein Data Lake zu und Frage die Dateien ab die die letzten Tage da angelegt wurden und sie in meinem BI Bericht abzubilden und jeder Refresh ist wieder ein Zugriff und kann mir dadurch auch schon wieder in den Warm Bereich reingehen genau so, wie wir es gesagt haben ne Zwischenschicht dazwischen bauen, das ist wieder Rechenleistung, die muss zur Verfügung gestellt werden, es müssen die Daten in den Cache reingeladen werden, damit sie schnell abgefragt werden und auch da das muss halt gesteuert werden und es ist eben interessant, besonders wenn man bei Microsoft in diese Modern Datawarehouse Architektur schaut ist es eben durchaus die Empfehlung hinzugehen und zu sagen. Jetzt haben sie alles, glaub ich auch Synapse umbenannt, aber früher war es halt so ich habe meinetwegen meine SQL Datenbank ich nehme das Azure Data Factory, was dann eine Komponente in der Cloud ist, mit denen ich Daten laden kann, lade es erstmal in den Data Lake rein, weil das ist der im Prinzip für kostengünstige Weg wohl also noch niemals direkt in die Datenbank. Und lass dann eben die Datenbank, die Dateien von dem Data Lake laden und verarbeiten, weil ich dafür dann nicht mehr den Data Factory brauche und kann so Rechenleistung sparen, optimieren und die Abläufe vorziehen, wogegen man früher gesagt hat ich hab ne OLTP Datenbank, mein ERP System oder weiß Gott was für eine Datenbank wo ich meine Quelle habe und ich habe eine Analyse Datenbank und dazwischen ein ETL Tool was die Daten lädt und das hat sich ja sogar in der Benamung geändert früher hieß es Export Transform Load mittlerweile sagt man ja, man hat ein ELT System das heißt also ich extrahiere, ich lade es in den Data Lake und macht dann erst das Transform, also das hat man eben auch da Konzeptmäßig geändert, wobei es für mich immer noch nicht ganz so griffig ist. Also ich, ich kenne die Strukturen, kenne gewisse Gedanken, aber wir hatten es in Folge 1 auch diese Leichtigkeit, die geht in den Momenten immer wieder verloren, die was man da so hat ja. 

00:22:00 Andreas 

Ja, aber wo du das sagst mit diesem tollen Data Lake auch da musst du natürlich den wieder überlegen was fängst du mit den Strukturen an, wie legst du die Daten in einer Ordnerstruktur ab?Sei es du hast da Rohdaten drin, du hast transformierte Daten auch das machen einige Anbieter und Kunden, die dann sagen wie möchte ich das dann da speichern? Trotzdem ist natürlich der Data Lake insofern ein gutes Werkzeug, weil es natürlich auch wirklich kostengünstig ist. Trotzdem kann das für mich nur so ne Art, ich bin jetzt mal Dauerspeicher sein, nur wirklich alles drin ist aber wenn ich was wirklich analysieren möchte muss es da wieder rauskommen. Das heißt dieses ETL ELT Tralala für mich heißt es ich finde das immer so ne Mischung aus so ein bisschen laden und transformieren ist überall immer dabei und spätestens dann, wenn ich dann du lachst schon weil wenn du das dann noch in deinen Analyse Werkzeug Park sei ist ein Tabular oder was auch immer für tolle Ideen in Zukunft noch kommen, auch da hast du ja noch mal eine Transformation in irgendeiner Form drin, weißt du machst dynamische Berechnung rein, hast die Währungskurse drin, die auch die Währungskurse, die kann man ja auch gut speichern, die sind ja nur jeden Tag mal aktualisiert, der Rest Pack ich Archiv weg. Also egal wo du bist, du hast immer so n Change wurde in den Angaben, wie diese Daten verarbeitet und speicherst. Trotzdem ist es so du musst dir jedes Mal wieder überlegen wie machst du es für die Zukunft? Und jetzt kommt eigentlich für mich mit das Schlimmste, was passieren kann, wenn der Kunde sagt jetzt haben wir so ein tolles Projekt, aber gucken sie mal, wir haben noch ein Altsystem, die Altdaten von da brauchen wir auch noch Marcus. Und dann fällt einmal auf hätte ich mal zu Anfang gewusst, was sie doch noch vorhaben und nicht erst mal dieses kleine Beiboot anfangen also da kommt dann jemand noch mit tollen Daten, die am besten noch nicht mal zu dem passen, was du gerade designet hast. Und du darfst wieder überlegen, wie du das hübsch machen kannst. 

00:23:59 Marcus 

Ja, wobei ich glaube manchmal würde man sich sonst verkünsteln und ist auch ein Thema, was man ja öfters mal sieht, über Modellierung werden wir nochmal ein paar Folgen machen, deswegen ich bin gespannt, aber man sieht halt entweder ich hab ein bestehendes System und ich biege das neue System in die bestehende Systeme oder Strukturen rein, weil sie mir vertraut sind und ich meine, ich möchte das weiter aufrechterhalten hat, hat so einen Faden bei Geschmack, weil man vielleicht nicht direkt auf die neue Neuerungen eingeht oder man hat eben das neue System aufgebaut und man presst nachher eben die alt Daten irgendwie in diese neue Struktur rein, was dann alte auch gegebenenfalls einen faden Beigeschmack hat, weil man vielleicht neue Struktur ein bisschen aufbrechen muss, damit die alt Daten auch reinpassen oder nochmal was reinnehmen. Ich glaube aber die Gedankenleistung beides am Anfang direkt zu berücksichtigen, ist vielleicht auch mit meiner Überforderung und da auch dann alle mitzunehmen. Sehr, sehr spannend genau. Ja? 

00:25:03 Andreas 

Marcus unschuldig wollte das nicht unterbrechen, da sprichst du wieder so n spannendes Thema nicht, glaub ich finde sogar den weg, wenn jetzt wo wir drüber sprechen, machen wir erst das neue und über das Alte kümmern wir uns später. Wir in Deutschland haben so die Angewohnheit, das muss da alles reinpassen und das war letztes die letzten 20 Jahre war es haben wir immer genauso gemacht. Ich glaube, der intelligentere Weg, wir machen erstmal das System, was sie jetzt als Anforderungen haben und die Alte Daten, die du ja wirklich nur anschaust, wenn du nochmal in die Vergangenheit schaust, kann man ja auch auf einem anderen Detail-Level oder wie andere so schön sagen Granularitäts-Level packen muss man sagt erst machen wir das neue und dann schieben wir das alte da rein, wo es reinpasst, wo es nicht einfach lassen wir das einfach mal inhaltlich nicht so detailliert, so überbordend du dein tolles neues designtes System nicht und schafft es aber trotzdem, die alten Informationen mitzunehmen und du hast zwar vielleicht nicht mehr die Detailschärfe aber ist das denn ein Problem? Du willst doch nur sehen ob dein Produkt gut lief, besser läuft oder bis in der Vergangenheit irgendwo Piks gab, wo man sagt, da könnte man noch mal überlegen woran könnte das denn gelegen haben. Dann kann ich immer noch mal ins alte System schauen und man muss sich mal abgewöhnen, oder wir deutschen müssen uns mal abgewöhnen wirklich alles, was man irgendwann an Daten produziert war bis zum letzten Tag mitzunehmen. 

00:26:14 Marcus 

Ja vor allem du hast ja ne, wir wollen ja von der Anforderung kommen also ich muss ja davon ausgehen, dass du für das neue System Anforderungen hattest und dann müssen auch die alten Daten oder überhaupt die Daten ihn zu deiner Anforderung passen und wenn die alten Daten halt nicht zu der Anforderung passen kann ich es halt nicht mitnehmen oder sie passen eben dazu. Dann kann ich überlegen, wie ich Sie reinbringe oder möglichst nah an dieser Auswertung dran bringen. Gut, dann lass uns mal die Folge abschließen mit unserer Rubrik 3 Dinge für den Heimweg was haben wir gelernt? Also eigentlich wollten wir über Datenquellen sprechen haben, haben uns mal über den Weg aufgezogen und haben gesagt eben Dateien direkt klar oder Dateien bereitstellen und laden und die Alternative dazu direkt auf eine Datenbank zuzugreifen. Da hätte ich gesagt, haben wir beide so als Favorit gesehen, doch lieber die Datenbank im Zugriff zu haben, wenn es nicht die produktive Datenbank ist, möglichst eine Backup Datenbank oder irgendeine Form der Bereitstellung über die Datenbank, weil dadurch eben schon sehr viel an Strukturen mitgegeben werden kann und eigentlich auch die Performance durch diese Abfragen sehr, sehr gut ist. Aber Datenquellen an sich oder Datei Datenquellen an sich so als Teil zwei oder Punkt zwei, sind nicht tot. Sie haben in der Cloud Welt immer mehr Einzug wieder erhalten, einfach dadurch, weil sie ohne besonderen Reader sehr einfach konsumierbar sind. Sie können daneben als Schnittstellen gut fungieren, zwischen den verschiedensten Systemen und für die Abspeicherung im Data Lake. Als günstige Speicheroption wird es eben häufig verwendet und die Dateien werden dort gespeichert. Und als dritten Punkt? Was haben wir als dritten Punkt, Andreas? 

00:28:28 Andreas 

Na, ich hab das mit den Dateien gesehen. Mit den Datenbanken habe ich für mich gesehen und. Im Prinzip kann man das für mich ableiten, egal was an Technologie kommt, wir haben immer wieder das Thema wie werden die Daten gespeichert? Ob es in irgendeiner Form eine Zwischenschicht gibt, sei es diese Textdateien oder überhaupt Dateien und möglichst beiden Systeme zu ermöglichen, autark zu bleiben und nicht von außen attackiert zu werden in irgendeiner Form also belastet, das heißt, das System selbst entscheidet, dass es liefert, also dieses für mich so ein bisschen Push und Pull. So bisschen wie auch in anderen Logiken, das heißt, das System entscheidet. Es liefert dir etwas und wir entscheiden als sag mal Analysesystem, wir holen es uns, wenn es denn da ist oder prüfen wir auch vor Ort da ist. Das heißt, diese einmal systemische wirkliche Trennung mit einem Zwischenspeicher in Form von Dateien oder dass ich sage, ich darf direkt auf das System, das heißt wir docken uns eigentlich direkt an. Das sind für mich so die Punkte, wo wir uns überlegen müssen was macht Sinn und wie ist die Infrastruktur des Kunden ist auch bei jedem durchaus unterschiedlich. Sei es sie haben noch irgendwelche anderen Systeme, die irgendwo im Web laufen und wo du wirklich nur, Eigentlich, wenn du willst Buchungsdaten bekommst per Dateien oder ähnliches kann ja auch irgendeinen Kassensystem oder sonstiges sein. Also ich glaub Conclusio egal wie sich die Zukunft weiterentwickelt du wirst immer die Diskussion haben darf ich direkt, darf ich indirekt im Sinne von diesen Dateien oder bin ich, wenn du so willst, sogar vielleicht sogar als drittes noch offline und ich muss irgendwas Manuelles machen? 

00:30:10 Marcus 

Ja, was mir gerade eingefallen ist viertens das ist ja das ganze Thema Real Time wenn es mir eigentlich sogar angeliefert wird oder rein gepusht wird in die Strukturen. 

00:30:19 Andreas 

Okay, auch ein cooles Thema ja. 

00:30:21 Marcus 

Ja also, wir haben noch viel zu erzählen und ich freue mich auf die nächste Folge und bis dahin machst gut. 

00:30:26 Andreas 

Ciao! 


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

I accept that my given data and my IP address is sent to a server in the USA only for the purpose of spam prevention through the Akismet program.More information on Akismet and GDPR.