Partitionierung zur effizienten Duplikaterkennung in - download pdf or read online

By Uwe Draisbach

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne laptop eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.

 

Die Arbeit wurde mit dem „Information caliber top grasp measure Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Show description

Read Online or Download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten (Ausgezeichnete Arbeiten zur Informationsqualität) (German Edition) PDF

Similar computing, internet & digital media in german books

Get Strahlentherapie atmungsbewegter Tumoren: PDF

Atmungsbedingte Bewegungen stellen eine zentrale Herausforderung in der Strahlentherapie dar. Als Grundlage der Berücksichtigung von Atembewegungen während der Therapie kommen zunehmend Verfahren zur 4D(=3D+t)-CT-Bildgebung zum Einsatz. Deren Integration in den klinischen Workflow bedarf aus Sicht der Bildverarbeitung zweier zentraler Schritte: einer bildbasierten Abschätzung der Organ- und Tumorbewegungen sowie der Berücksichtigung der geschätzten Bewegungen während der Dosisberechnung im Sinne einer Dosisakkumulation.

Download e-book for kindle: Lean Testing für C++-Programmierer: Angemessen statt by Andreas Spillner,Ulrich Breymann

Sie programmieren – auch in C++. Sie führen regelmäßig Unit checks durch. Sie sind sich manchmal unsicher, ob Sie ausreichend oder zu viel getestet haben. Werfen Sie einen Blick in dieses Buch, Sie werden viele Anregungen für Ihre tägliche Arbeit finden! »Lean trying out« steht für einen Ansatz, der auf der einen Seite alle wichtigen Testfälle zur Prüfung der software program berücksichtigt, auf der anderen Seite aber den Testaufwand in einem überschaubaren Rahmen hält.

Download e-book for iPad: Herausforderung Utility 4.0: Wie sich die Energiewirtschaft by Oliver D. Doleski

Das Buch begleitet den Übergang von der analogen zur digitalen Energiewirtschaft und gibt dem Leser wertvolle Impulse für die Erschließung neuer, lukrativer Betätigungsfelder. Autoren aus Wissenschaft und Praxis liefern ausgewählte Antworten auf die enormen Herausforderungen angesichts von Digitalisierung und Dezentralisierung im Energiesektor.

Datenbank-Programmierung mit Visual C# 2012: Grundlagen, - download pdf or read online

Dieses Buch bietet Ihnen nicht nur den idealen Einstieg in die Datenbankprogrammierung mit visible C# 2012, sondern eignet sich auch bestens als Nachschlagewerk für Fortgeschrittene. Bei dieser komplett für das . web Framework four. five überarbeiteten und durch neue Kapitel und Beiträge ergänzten Neuauflage steht der praktische Nutzen im Vordergrund.

Additional resources for Partitionierung zur effizienten Duplikaterkennung in relationalen Daten (Ausgezeichnete Arbeiten zur Informationsqualität) (German Edition)

Example text

Download PDF sample

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten (Ausgezeichnete Arbeiten zur Informationsqualität) (German Edition) by Uwe Draisbach


by Robert
4.4

Rated 4.12 of 5 – based on 41 votes