Navigation mit Access Keys

KnnWorkbook

Hauptinhalt

 

Das KnnWorkbook ist ein auf Microsoft Excel 2007 bzw. Excel 2010 basierendes Softwareinstrument. Mit dem KnnWorkbook lassen sich Auswertungen mittels der Methode der k Nächsten Nachbarn (kNN) durchführen. Es an der Eidg. Forschungsanstalt WSL von der Forschungsgruppe Forstliche Produktionssyteme entwickelt.

 

Die Methode der k Nächsten Nachbarn

Die Methode der k Nächsten Nachbarn (kNN-Methode) ist eine Vorgehensweise der Statistik, bei welcher aus einer Menge bereits erhobener Datensätze bestimmte Merkmale eines Referenzdatensatzes geschätzt werden sollen. Die kNN-Methode beruht auf der Idee der Ähnlichkeit zweier Datensätze: Zwei Datensätze sind dann ähnlich, wenn ihre Merkmale ähnlich sind, wenn also je ein Merkmalswert des einen Datensatzes verhältnismässig nahe beim Merkmalswert des anderen Datensatzes liegt, und das für alle Merkmale gilt.

Ein Beispiel:

 

In einer Menge von 21 Datensätzen mit zwei Merkmalen (aufgetragen auf die x- und die y-Achse) sollen alle Datensätze gefunden werden, die innerhalb einer bestimmten Distanz zu einem ausgewählten Datensatz - dem Referenzdatensatz - liegen. In unserem Beispiel sind demnach 7 Datensätze ähnlich zum Referenzdatensatz. Wir bezeichnen solche ähnlichen Datensätze als nächste Nachbarn.

Natürlich kann das Mass der Ähnlichkeit nicht nur für zweidimensionale Datensätze sondern allgemein für m-dimensionale Datensätze bestimmt werden, wobei m der Anzahl von Merkmalen der Datensätze entspricht.

Der Parameter k

Die kNN-Methode wendet üblicherweise eine leicht verschiedene Strategie an. Anstatt einen maximalen Abstand festzulegen, innerhalb dessen sich die nächsten Nachbarn in Relation zum Referenzdatensatz befinden müssen, wird eine Anzahl nächster Nachbarn bestimmt, die danach weiter betrachtet werden. Diese Anzahl nächster Nachbarn wird durch den Parameter k ausgedrückt, für welchen im Normalfall eine nicht allzu grosse Ganzzahl eingesetzt wird, z.B. k := 7.

Bei dieser Vorgehensweise ist es hilfreich zu wissen, wie nahe die nächsten Nachbarn in Relation zum Referenzdatensatz sind. Liegen sie alle nahe beieinander? Dann wird die Schätzung wohl eine gute sein. Oder liegen sie weit entfernt? Dann wird die Schätzung wohl eher wenig Vertrauen erwecken.

Die kNN-Methode als Schätzmethode

Die kNN-Methode kann angewendet werden, um Schätzungen vorzunehmen. Mittels einer Reihe von unabhängigen Merkmalen soll ein einzelnes abhängiges Merkmal geschätzt werden. Wie beeinflussen beispielsweise die Rückedistanz, der Nadelholzanteil und das durchschnittliche Mittelstammvolumen die Kosten der Holzernte? Aus einer Reihe von bereits erhobenen Datensätzen soll für einen zukünftigen Holzschlag diese Kosten abgeschätzt werden. Der zukünftige Holzschlag ist also der Referenzdatensatz, für welchen nur die Werte der unabhängigen Variablen a priori bekannt sind, nicht aber der Wert der abhängigen Variable. Aus den vorhandenen Datensätzen werden die k nächsten Nachbarn ausgesucht, und aus deren abhängigen Variablen wird ein Schätzwert für die abhängige Variable des Referenzdatensatzes berechnet. Dabei wird üblicherweise zusätzlich berücksichtigt, wie nahe/ähnlich jeder der nächsten Nachbarn dem Referenzdatensatz tatsächlich ist. Nahe nächste Nachbarn erhalten somit ein grösseres Gewicht bei der Schätzung als weiter entfernte nächste Nachbarn.

Euklidische Distanz

Um die Nähe eines Datensatzes zum Referenzdatensatz zu bestimmen wird oft die euklidische Distanz als Distanzmass eingesetzt. Die euklidische Distanz ist in Worten ausgedrückt die Quadratwurzel aus der Summe der quadrierten Abstände zwischen den Merkmalen zweier Datensätze. Bei der kNN-Methode werden die Abstände zusätzlich mit einem besonderen Faktor gewichtet, welcher die verschiedenen Einheiten und Skalen der Merkmale normiert. Die Formel lautet dann:

 

d'ij ist die euklidische Distanz zwischen einem Datensatz i und dem Referenzdatensatz j. ∑ ist die Summe über alle unabhängigen Merkmale p. αp ist der Korrelationskoeffizient zwischen dem unabängigen Merkmal p und dem abhängigen Merkmal y. βp ist die Standardabweichung des Merkmals p. xip und xjp sind die jeweiligen Werte der unabhängigen Merkmale des Datensatzes i bzw. des Referenzdatensatzes j.

 

WEITERE INFORMATIONEN