|
Biodiversität
Landschaftsentwicklung
Management von Naturgefahren
Nachhaltige Ressourcennutzung
Waldökosysteme
Forschungseinheiten
Forschungsprogramme
Im Fokus
Mitarbeitende
Organisation
Aufgaben
Geschichte
Jobs und Karriere
Kontakt und Anfahrt
Weiterführende Informationen
KnnWorkbook Das KnnWorkbook ist ein auf Microsoft Excel 2007 bzw. Excel 2010 basierendes Softwareinstrument. Mit dem KnnWorkbook lassen sich Auswertungen mittels der Methode der k Nächsten Nachbarn (kNN) durchführen. Das KnnWorkbook wurde an der Eidg. Forschungsanstalt WSL von der Forschungsgruppe Forstliche Produktionssyteme entwickelt. Die Methode der k Nächsten Nachbarn Die Methode der k Nächsten Nachbarn (kNN-Methode) ist eine Vorgehensweise der Statistik, bei welcher aus
einer Menge bereits erhobener Datensätze bestimmte Merkmale eines Referenzdatensatzes geschätzt werden sollen. Die kNN-Methode beruht auf der Idee der Ähnlichkeit zweier Datensätze: Zwei Datensätze sind dann ähnlich, wenn ihre Merkmale ähnlich sind, wenn also je ein Merkmalswert des einen Datensatzes verhältnismässig nahe beim Merkmalswert des anderen Datensatzes liegt, und das für alle Merkmale gilt. Der Parameter k Die kNN-Methode wendet üblicherweise eine leicht verschiedene Strategie an. Anstatt einen maximalen Abstand festzulegen, innerhalb dessen sich die nächsten Nachbarn in Relation zum Referenzdatensatz befinden müssen, wird eine Anzahl nächster Nachbarn bestimmt, die danach weiter betrachtet werden. Diese Anzahl nächster Nachbarn wird durch den Parameter k ausgedrückt, für welchen im Normalfall eine nicht allzu grosse Ganzzahl eingesetzt wird, z.B. k := 7. Die kNN-Methode als SchätzmethodeDie kNN-Methode kann angewendet werden, um Schätzungen vorzunehmen. Mittels einer Reihe von unabhängigen Merkmalen soll ein einzelnes abhängiges Merkmal geschätzt werden. Wie beeinflussen beispielsweise die Rückedistanz, der Nadelholzanteil und das durchschnittliche Mittelstammvolumen die Kosten der Holzernte? Aus einer Reihe von bereits erhobenen Datensätzen soll für einen zukünftigen Holzschlag diese Kosten abgeschätzt werden. Der zukünftige Holzschlag ist also der Referenzdatensatz, für welchen nur die Werte der unabhängigen Variablen a priori bekannt sind, nicht aber der Wert der abhängigen Variable. Aus den vorhandenen Datensätzen werden die k nächsten Nachbarn ausgesucht, und aus deren abhängigen Variablen wird ein Schätzwert für die abhängige Variable des Referenzdatensatzes berechnet. Dabei wird üblicherweise zusätzlich berücksichtigt, wie nahe/ähnlich jeder der nächsten Nachbarn dem Referenzdatensatz tatsächlich ist. Nahe nächste Nachbarn erhalten somit ein grösseres Gewicht bei der Schätzung als weiter entfernte nächste Nachbarn. Euklidische DistanzUm die Nähe eines Datensatzes zum Referenzdatensatz zu bestimmen wird oft die euklidische Distanz als Distanzmass eingesetzt. Die euklidische Distanz ist in Worten ausgedrückt die Quadratwurzel aus der Summe der quadrierten Abstände zwischen den Merkmalen zweier Datensätze. Bei der kNN-Methode werden die Abstände zusätzlich mit einem besonderen Faktor gewichtet, welcher die verschiedenen Einheiten und Skalen der Merkmale normiert. Die Formel lautet dann:
Quellen zur kNN-MethodeUm mit dem KnnWorkbook produktiv arbeiten zu können, ist es nötig, die Vorgehensweise der kNN-Methode zu verstehen. Hier wurden nur die groben Schritte genannt. Artikel, die die kNN-Methode detaillierter schildern, sind beispielsweise folgende:
|