Und nun zum Höhepunkt des DWE Refresh - zumindest aus meiner Sicht: die neuen "
Data mining features". Ich meine damit nicht, dass die
anderen Neuerungen marginal sind. Im Gegenteil, schon alleine die bisher beschriebenen Erweiterungen sind mehr als ich von einem "Refresh" erwarte. Von einem hunderstel Upgrade kann man höchstens etwas mehr als nur Fehlerkorrekturen erwarten.
Neue Mining-Algorithmen berechtigen eigentlich zu mehr als nur einem Hunderstel, z.B. zu 9.2 oder 9.5 oder gar zu 10.0. Dieses Refresh bring für mich mehr als eine komplette neue Windows-Version. Vista bringt die Menschheit nicht voran, wenn man mal von Intel oder AMD absieht. Lieber ein neuer Mining-Algorithmus als Tausend angeblicher Verbesserungen am GUI. MS ist doch inzwischen mehr damit beschäftigt, selbst aufgerissene Löcher zu stopfen als wirkliche Innovationen zu auszuliefern.
Aber das ist ein weites Feld. Ich komme lieber zurück zu den wichtigen und interessanten Dingen im IT-Leben, hier zu der
Naive Bayes Klassifikation in der Data Warehouse Edition:
"Naive Bayes classification: The classification of information that is gathered from non-structured documents is a key element of structured and unstructured mining analysis. This algorithm provides this functionality with best acceptance throughout the industry. Naive Bayes classification is supported in the predictor operator."
Das ist eine Bereicherung für die Vorhersage kategorialer Variablen. Hier gab es bisher nur die Baum-Klassifikation, während zur Vorhersage kontinuierlicher Attribute sich gleich drei Verfahren anbieten. Es ist immer gut, eine Alternative zu haben. Trotz "naiver" Unabhängigkeitsannahmen liefert Naive Bayes häufig gute Ergebnisse.
Das ist aber noch nicht alles:
"Logistic regression modeling: Logistic regression is one of the most widely known data mining techniques to predict binary targets. For example, you can now predict targets such as Gender: Male or Female; Fraud: Yes or No; and Accepted: Yes or No. Logistic regression algorithms are supported in the predictor operator."
Noch ein Algorithmus für die Klassifikation, diesmal aber nur für die Schätzung binärer Attribute.
Die nun drei Verfahren für die Vorhersage nicht-kontinuierlicher Werte werden im Design Studio in den Eigenschaften des Vorhersagefeld-Operators unter "Mining-Einstellungen" angeboten. Anwendung der
logistischen Regression auf nicht-binäre kategoriale Ziele veranlassen den Operator zur Ausgabe wilder SQL-Fehlermeldungen, die dem möglicherweise ahnungslosen Data Miner nicht unbedingt weiter helfen.
Beim Mining zu Fuß mit DB2 IDMMX Stored Procedures kann man nun auch für BuildClasModel mit drei Algorithmen spielen:
CALL IDMMX.BuildClasModel('MiningTutorial.PREDICTION', 'INPUT', 'BANKCARD', 'DM_setAlgorithm(''Logistic'')')
CALL IDMMX.BuildClasModel('MiningTutorial.PREDICTION', 'INPUT', 'BANKCARD', 'DM_setAlgorithm(''NaiveBayes'',''0.0020'')')
Für die gute alte Baumklassifikation geht es weiterhin auch ohne DM_setAlgorithm:
CALL IDMMX.BuildClasModel('MiningTutorial.PREDICTION', 'INPUT', 'BANKCARD')
Neural Networks are back! "Kohonen Clustering: The Clusterer operator now provides the neural Kohonen Clustering algorithm."Dies ist ja eigentlich kein neuer Algorithmus: Das Clustern mit der Kohonen Karte kannte schon der gute, alte Intelligent Miner fo
Aufgenommen: Jan 21, 16:18