Was versteht man unter Datentransformation?

Unter dem Begriff Datentransformation versteht man zunächst eine Aufbereitung und Umwandlung von Daten beispielsweise im Rahmen einer Datenintegration. Eine Transformation von Daten wird beispielsweise dann zum Tragen kommen, wenn ältere IT-Systeme oder verteilte Datenbanken in ein neues Format oder im Rahmen einer Backup-Speicherlösung übertragen und konsolidiert werden müssen. Auch wenn eine aussagekräftige Darstellung und Ansicht von Daten gewünscht wird, können Informationen aus verschiedenen Datenquellen zusammengefasst, aufbereitet und ohne Speicherung angezeigt werden. Eine Datentransformation ist dabei kein starrer Prozess, sondern muss in den meisten Fällen extrem dynamisch und auf die Quell-/Zielstrukturen hin angepasst sein.

Datentransformation im Detail

Um Daten und Informationen aus unterschiedlichen Datenquellen und Strukturen zusammenzuführen, müssen diese unter Umständen auch verschiedene Prozesse durchlaufen. Eine Transformation der Informationen erfordert zudem ein vereinheitlichendes Datenschema, um eine korrekte Anpassung durchführen zu können. Bei der Datentransformation bedient man sich in der Regel an zwei Vorgehensweisen, die im Folgenden kurz dargestellt werden.

Schema-Mapping auf die Zielstruktur

Aus diesem Mapping sollten sich die erforderlichen Transformationsregeln für die Daten ableiten lassen. Ziel ist es, eine möglichst vollständige Übereinstimmung der Quell- und Zielschemata zu erreichen. Im Rahmen von Datenbeständen in SQL-Datenbanken erreicht man eine Schematransformation idealerweise unter Anwendung der Datenbanksprache Schema SQL. Hier kann man entsprechende Assoziationen für das Mapping vorgeben und umsetzen.

Datenbereinigung in den Quellstrukturen

Sobald das Mapping der Datenbestände auf die gewünschte Zielstruktur erreicht wurde, kommt ein weiterer wichtiger Schritt zum Einsatz. Am Beispiel eines Legacy-Datenbestandes können in den Datenstrukturen eine Vielzahl an Fehlern in Form von inkorrekten, inkonsistenten oder redundanten Daten auftauchen. Während der Datentransformation besteht die Möglichkeit der Fehlerkorrektur. Oftmals wird hier ein altes oder falsches Datumsformat in ein standardisiertes Format übertragen. Dies trifft auch für eine Vielzahl anderer Datentypen zu.

Möglichkeiten der Datenbereinigung

Datenbereinigungen lassen sich dabei auch in zwei grundsätzliche Prozessschritte einteilen. Zum einen wendet man hier korrektive Schritte auf die Datenbestände an. Auf der anderen Seite werden die inhaltlichen Aspekte der Daten überprüft und wo nötig modifiziert. Beide Schritte lassen sich wie folgt zusammenfassen:

Syntaktische Transformation

In diesen Prozessschritt fallen vor allem die Anpassungen und Korrekturen von unterschiedlichen Datentypen. Klassischerweise wird hier das Datumsformat im Rahmen von formalen Aspekten korrigiert. Ein Datenschema legt hierbei die genaue Vorgehensweise und Typisierung fest.

Semantische Transformation

Einen Großteil der Datenbereinigung nimmt die inhaltliche Prüfung der zu transformierenden Daten in Anspruch. Hier steht die Duplikat Erkennung und die Anpassung von unterschiedlichen Datenwerten im Vordergrund. Beispiele sind hier die Geschlechtererkennung und Formalisierung (bspw. Mr. → Herr) oder eine Werteumrechnung (z.B. Gallone → Liter, inch → m/cm etc.). Oftmals spielen hierbei aber auch Informationsergänzungen im Rahmen von Data-Enrichment eine wichtige Rolle.

Beispiel einer Datentransformation

Ein Transformationsprozess kann auf vielfältige Weise durchgeführt werden. Anhand eines kleinen Beispiels soll der Kernprozess der Datentransformation veranschaulicht werden. Es wird hier von einer Legacy-XML-Datenbank für ein Buch- oder Artikelarchiv ausgegangen, dass an die neuen Geschäftsprozesse eines Unternehmens angepasst und überführt werden sollen. Das Ausgangsformat XML soll dabei schemagerecht in das JSON-Format überführt werden.

<buecher>
  <buch>
    <titel>Datentransformation</titel>
    <isbn>664-3-2530-1102-1</isbn>
    <autor>John Doe</autor>
    <pubdate>20170125</pubdate>
    <seiten>455</seiten>
    <verlag>www.dataliquid.de</verlag>
    <preis>35,25</preis>
  </buch>
  <buch>
    <titel>Datenintegration</titel>
    <isbn>123-3-771-8810-1</isbn>
    <autor>Lisa Wend</autor>
    <pubdate>20170416</pubdate>
    <seiten>385</seiten>
    <verlag>www.dataliquid.de</verlag>
    <preis>29,35</preis>
  </buch>
</buecher>

Aufgrund der hohen Kompatibilität zu XML und YAML möchte man beispielsweise und im Rahmen einer API-Definition sowie entsprechenden Business-Types eine Konsolidierung in das JSON-Format vornehmen. Im oben gezeigten Beispiel sind auch Fremdformate wie das Datum und der Preis zu berücksichtigen. Eine gültige JSON-Schemadeklaration der XML-Daten kann wie folgt abgebildet werden:

{
  "buecher": {
    "buch": [
      {
        "titel": "Datentransformation",
        "isbn": "664-3-2530-1102-1",
        "autor": "John Doe",
        "pubdate": "25.01.2017",
        "seiten": "455",
        "verlag": "www.dataliquid.de",
        "preis": "29,95"
      },
      {
        "titel": "Datenintegration",
        "isbn": "123-3-771-8810-1",
        "autor": "Lisa Wend",
        "pubdate": "16.04.2017",
        "seiten": "385",
        "verlag": "www.dataliquid.de",
        "preis": "24,95"
      }
    ]
  }
}

Auf diese Deklaration wurde auch eine Transformation und Bereinigung - im Beispiel die Währungs- und Datumswerte - nach dem gewünschten Daten-Schema durchgeführt. Wenn alles fehlerfrei funktioniert, können die Daten in die neue Datenbank eingespielt oder im Data-Warehouse abgelegt werden. Oftmals wird auch nur eine temporäre Ansicht konsolidierter Daten gewünscht. Hier ist dann gleichermaßen zu verfahren, jedoch ohne eine konkrete Speicherung der erzeugten Ansichten vorzunehmen.

Fazit

Die Datentransformation wird durch die rasante Digitalisierung und gerade im Umfeld von Big-Data-Anwendungen gerne genutzt. Bei einer digitalen Transformation von Massendaten in alten Datenbeständen verwendet man gerne auch das ETL-Schema für die Prozessabwicklung.

Unsere hochwertigen Dienstleistungen und jahrelange Erfahrungen ermöglichen Ihnen eine professionelle und unkomplizierte Umsetzung Ihres Projektes. Wir erstellen mit Ihnen qualifizierte Mappings und Bereinigungen für SQL-Datenbanken, XML und JSON. Unsere fundierte Erfahrung auf diesem Gebiet garantiert Ihren wirtschaftlichen Erfolg.

Nach oben