Veröffentliche auch du deine Arbeit – es ist ganz einfach!
Mehr InfosStudienarbeit, 2012, 39 Seiten
Studienarbeit
1,3
„Die Arznei macht kranke, die Mathematik traurige und die Theologie sündhafte Leute.“ (Martin Luther)
So wie Martin Luther schon vor mehr als 500 Jahren gewusst hat, dass die medizinische Versorgung Einfluss auf den Menschen hat, so hat er mit der zweiten Aussagen vielleicht Unrecht. Die Mathematik, speziell die (multivariate) Statistik mit ihren strukturentdeckenden Methoden, sorgen dafür, dass wir heute dank der elektronischen Informationsverarbeitung erkenntnisreiche Aussagen über Probleme und Strukturen in unserer Welt bekommen.
Daher soll unter Anwendung clusteranalytischer Verfahren die Situation im Gesundheitswesen, die medizinische Versorgung in den Landkreisen und kreisfreien Städte der Bundesrepublik Deutschland, untersucht und gruppiert werden. Diese Arbeit beschränkt sich auf die Untersuchung der Krankenhaus-, Pflege, sowie Reha- und Vorsorgesituation, ohne Berücksichtigung der Verfügbarkeit von Ärzten.
Im zweiten Kapitel erfolgt die Erstellung der Datenbasen (Anhang A: Abbildung 5). Darauffolgend wird im dritten Kapitel eine Vorabanalyse auf die Gesamtheit der Clustermerkmale gemacht, die die Struktur der Merkmale beschreibt. Im vierten Kapitel erfolgen dann die eigentliche Clusteranalyse hinsichtlich der Erkundung von Ausreißern und die Gruppierung der Landkreise und kreisfreien Städte. Hier wird untersucht, ob die Landkreise zu Gruppen zusammengefasst werden können, um eine allgemeingültige Aussage über die medizinische Versorgung der Regionen zu treffen. Im fünften Kapitel erfolgt abschließend eine Analyse zur Zusammenfassung der Merkmale mittels Faktorenanalyse.
In diesem Kapitel folgt die Beschreibung der Datenbeschaffung, der Datenbereinigung, über die Bildung der Quotienten bis hin zur Qualität und Vollständigkeit der Merkmale der Merkmalsträger (Fälle). Die erste Datenbasis dient zur Untersuchung der im Kapitel 3 folgenden Untersuchung zwecks Ausreißern und Extremwerte, sowie Zusammenhänge zwischen Merkmalen. Im Anhang A (Abbildung 6) findet sich eine Übersicht der jeweiligen Datenbasen zu Inhalten und Zweck.
Die Datengrundlage der Analyse zur Untersuchung der medizinischen Versorgung der Landkreise und kreisfreie Städte in Deutschland, die Merkmalsträger, basiert auf der Regionaldatenbank der Statistischen Ämter des Bundes und der Länder der Bundesrepublik Deutschland[1]. Hier wurden aus den sachlogischen Themen Gesundheitsweisen, Pflege, Bevölkerung und Gebietsstand die entsprechenden Tabellen, die das komplette Jahr 2009[2] beschreiben, ausgewählt. Die abgerufenen Daten liegen im CSV-Format vor und müssen vor dem Import in SPSS aufbereitet werden. Es werden alle Daten, die nicht der Merkmalsbeschreibung dienen und keine Landkreise oder kreisfreien Städte beschreiben, entfernt. Das heißt, dass alle Merkmalsträger mit einem allgemeinen Gemeindeschlüssel AGS[3] zwischen 1000 und 17000, sowie die Stadtstaaten Berlin, Hamburg und Bremen (AGS 2,4 und 11) als Clusterobjekte in Frage kommen. Des Weiteren werden die benötigten Merkmale mittels PASW-Modeler extrahiert und im SPSS-Format gespeichert. Anschließend erfolgt die Zusammenführung der ausgewählten Merkmale mit Hilfe des PASW-Modeler zur Bildung von Quoten aller 467 extrahierten Landkreise, kreisfreien Städte und Stadtstaaten. Alle späteren Schritte werden mit SPSS 19 bearbeitet.
Die Quoten, auch Ziffern oder Raten, werden als Verhältniszahlen gebildet. Diese, bei der empirischen Wirtschafts- und Sozialforschung üblichen Maßzahlen, setzen sich durch die im Zähler und Nenner sachlogischen zusammengehörende Merkmale zusammen. Verhältniszahlen nehmen dem Merkmal dessen Gewichtung und ermöglichen beispielweise einen Vergleich zwischen Merkmalsträgern mit unterschiedlicher Bevölkerungsgröße. So stehen beispielweise in einem Landkreis mehr Krankenhausbetten zur Verfügung als in einem anderen, jedoch ohne Berücksichtigung der Einwohnerzahl (extensives Merkmal). Um die Krankenhausbetten unter den Landkreisen vergleichbar zu machen, dienen Verhältniszahlen (intensives Merkmal): 100 Krankenhausbetten pro 10000 Einwohner. Hier wird wieder unterschieden[4].
Zur Untersuchung der medizinischen Versorgung im Gesundheitswesen wurden folgende Quoten gebildet:
Der erste und zweite Quotient beschreiben die Situation der Krankenhäuser. Damit soll die Krankenhausdichte, sowie die Bettendichte untersucht werden.
Abbildung in dieser Leseprobe nicht enthalten
Der dritte und vierte Quotient beschreiben die Situation der Vorsorge- und Rehabilitationseinrichtungen. Aufgrund der niedrigen Anzahl der Einrichtungen wurde ein niedriger Nenner gewählt, um den absoluten Wert überschaubar zu halten.
Abbildung in dieser Leseprobe nicht enthalten
Die Quotienten Q5 bis Q8 beschreiben die Situation der Pflegeeinrichtungen im Verhältnis zu der Anzahl der Rentner im jeweiligen Landkreis. Als Rentner wurden alle Einwohner gewählt, die 65 Jahre oder älter sind. Es wurde diese Personengruppe gewählt, da diese die Pflegeheime in der Regel am meisten beanspruchen. Auch soll, aufgrund des demographischen Wandels, analysiert werden, wie gut die Versorgung für ältere Menschen in Deutschland generell ist.
Abbildung in dieser Leseprobe nicht enthalten
Es wird bei der Bildung der Quotienten nicht zwischen Ballungsgebiet und Großstadt, sowie ländlichen Regionen unterschieden. Daher ist eine Aussage, bezüglich einer Agglomeration gegenüber einer ländlichen Gegend (noch) nicht möglich. So lässt sich Vermuten, dass Berlin beispielweise den umliegenden ländlichen Raum mit der Versorgung von Krankenhäusern abdeckt. Auch können aufgrund des kurzen betrachteten Zeitraums keine Aussagen über die Entwicklung der medizinischen Versorgung in der BRD gemacht werden.
Nach erfolgreicher Bildung der Quoten erfolgt die Überprüfung der Datenvollständigkeit und Fehlerfreiheit der neuen Merkmale, der Quoten.
Die Merkmale, die Quoten, der Merkmalsträger müssen zu weiteren Analysen vollständig vorhanden sein. Die Gründe hierzu sind verschieden. Ein Beispiel ist, dass bei der Clusteranalyse in Kapitel 4 das Objekt, in diesen Fall der Merkmalsträger, also der Landkreis oder die kreisfreie Stadt, durch alle Clustermerkmale beschrieben werden. In diesen Fall wird das Objekt durch acht Merkmale beschrieben, das heißt, dass der Merkmalsträger achtdimensional ist. Ist eine Merkmalsausprägung nicht vorhanden, wird das Objekt verfälscht dargestellt und ist nicht mehr vergleichbar mit anderen Objekten[5].
Insgesamt wurden Quotienten von über 467 Merkmalsträgern berechnet. Eine Analyse der Datenvollständigkeit hat ergeben, dass bei 54 Fällen keine Ausprägungen der Quotienten vorhanden sind. Das sind die Regierungsbezirke Chemnitz, Dresden und Leipzig des Freistaats Sachsen, sowie die statistischen Regionen Dessau, Halle und Magdeburg des Bundeslandes Sachsen-Anhalt. Für weitere 8 Merkmalsträger waren Daten nur partiell verfügbar. Somit verbleiben dem Datenbestand 405 Fälle oder 86,7% der ursprünglichen Datensätze für die Clusteranalyse (Tabelle 1).
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1: Datenvollständigkeit der Fälle
Die Merkmalsausprägungen sind durch die Quotierung noch nicht untereinander vergleichbar. So haben beispielweise Q8 und Q7 unterschiedliche Größen im Nenner. Um die Merkmalsausprägungen anhand ihrer absoluten Zahl untereinander vergleichbar und dimensionslos zu machen und so für die kommende Clusteranalyse vorzubereiten, werden diese mittels z-Transformation standardisiert. Die z-Transformation berechnet sich durch die die Abweichung vom Mittelwert zum Verhältnis der Wurzel der Varianz, der Standardabweichung[6].
Bei der z-Transformation ist zu beachten, dass die z-Werte der einzelnen Merkmale neu berechnet werden müssen, wenn Objekte aus der Datenbasis eliminiert werden. Dies weil sich die Mittelwerte der Merkmale ändern (Abhängigkeit zum Mittelwert). Der Standardisierung folgt die Analyse hinsichtlich der Verteilung und dem Zusammenhang der Clustermerkmale.
Für alle 405 Fälle wurde jede Verhältniszahl (Qn) durch die z-Transformation standardisiert (ZQn).
Dieses Kapitel widmet sich der Verteilungs- und Zusammenhangsanalyse der Clustermerkmale. Im ersten Schritt werden die Verteilungen der einzelnen Clustermerkmale aufgezeigt, um zu untersuchen, ob alle Merkmale metrisch skaliert vorliegen und um spätere Ausreißer der Clusteranalyse zu prognostizieren. Die anschließende Zusammenhangsanalyse zeigt, ob es sinnvoll ist, Merkmale zusammenzufassen.
Die Verteilungsanalyse (Tabelle 20 im Anhang B) soll herausfinden, wie die einzelnen nichtstandardisierten Merkmale der Objekte verteilt sind. Ziel ist eine Analyse hinsichtlich möglicher Ausreißer (Merkmalsausprägungen im Bereich des 1,5- bis 3-fachen Werts vom Quartil0,75) und Extremwerte (Merkmalsausprägungen größer des 3-fachen Werts vom Quartil0,75)[7], sowie eine Analyse hinsichtlich einer metrischen Skalierung und die Streuung der Merkmale. Bei der ausgewiesenen Schiefe kann festgestellt werden, in wie weit ein Merkmal normalverteilt, rechts- oder linksschief verteilt ist. Eine Schiefe größer als 0 bedeutet, das Merkmal ist rechtschief und es könnte einige Ausreißer, respektive Extremwerte aufweisen, die meisten Merkmalsausprägungen sind kleiner als der Mittelwert. Eine Schiefe kleiner 0 meint, dass die Verteilung linksschief ist und bedeutet, dass die meisten Werte des Merkmals statistisch häufig größer als der Mittelwert sind. Eine Schiefe um den Wert 0 besagt, dass ein Merkmal normal- oder symmetrisch verteilt ist[8]. Auf einen CHI2-Anpassungstest bezüglich der Prüfung auf eine Verteilungsfunktion wird hier verzichtet, da nur eine Tendenz der Schiefe und der metrischen Skalierung und der Streuung betrachtet werden soll.
Alle Merkmale weisen eine Streuung und einen Mittelwert bedeutend größer 0 auf und liegen so zwar metrisch skaliert, aber nicht dichotom vor. Die Merkmale Q7, Q8 und Q5 weisen eine geringe Schiefe auf, so dass deren Verteilung annähernd durch eine Normalverteilung beschrieben werden kann. Die Merkmale Q1, Q2, Q3, Q4, Q6 weisen eine große positive Schiefe auf, was bedeutet, dass die Merkmale eine rechtschiefe Verteilung aufweisen. Durch den kleinen Interquartilsabstand und einer großen Spannweite werden Ausreißer- und Extremwerte in den Merkmalsausprägungen beschrieben. Die Merkmalsträger dieser, durch einen kleinen Interquartilsabstand und einer hohen rechtschiefen Verteilung beschreibenden Merkmale[9], sind gute Kandidaten für Ausreißerobjekte einer Clusteranalyse, da diese Extremwerte das Zentrum eines Clusters stark beeinflussen können[10]. Auffällig ist auch, dass extreme Merkmalsausprägungen häufig auf die gleichen Merkmalsträger schließen. Die Merkmalsträger der beobachteten Ausreißer sind gute Kandidaten für Randobjekte einer Clusteranalyse in Kapitel 4.4.
Die Zusammenhangsanalyse soll klären, ob es neben eines sachlogischen auch ein statistisch erklärbarer Zusammenhang zwischen den standardisierten Merkmalen existiert (Korrelationsanalyse). Dies ist eine Voraussetzung für die Clusteranalyse, um Gewichtungen einzelner Cluster durch einzelne Merkmale zu vermeiden, da es bei diesen Variablenpaaren zu einer Überbewertung der entsprechenden Fälle kommen kann. Die Maßzahl des Korrelationskoeffizienten der Korrelationsanalyse wird nach Bravais-Pearson berechnet, da die Merkmalsausprägungen metrisch sind, doppelt vorkommen können und getestet werden soll, ob ein linearer Zusammenhang besteht. Ein starker linearer Zusammenhang zwischen den Merkmalen besteht bei einem Korrelationskoeffizienten von 1 – 0,7, ein mittlerer linearer Zusammenhang bei einem Wert von 0,7-0,5. Unter 0,5 bis -0,5 besteht kaum (bzw. schwacher) und ab -0,5 bis -1 ein hoher gegenläufiger linearer Zusammenhang. Eine hohe statistische Korrelation bedeutet aber nicht immer einen kausalen sachlogischen Zusammenhang zwischen Merkmalen. Der Korrelationskoeffizienten muss also immer kontextabhängig betrachtet werden[11].
Korrelieren Merkmale untereinander sehr stark, gibt es bei einer Clusteranalyse drei Möglichkeiten mit ihnen zu verfahren:
- Zusammenfassen der hochkorrelierten Merkmale mittels Faktorenanalyse[12]
- Siehe Kapitel 5
- Entfernen des Merkmals mit dem niedrigsten Variationskoeffizient
- Der Variationskoeffizient standardisiert die Varianz eines Merkmals und ergibt sich (empirisch) aus dem Verhältnis der Wurzel aus der Streuung (Standardabweichung) zum arithmetischen Mittelwert. Das Merkmal mit dem niedrigsten Variationskoeffizient wird entfernt, da der höhere Variationskoeffizient das Merkmal mit dem kleineren erfasst[13].
- Oder der sachlogische Ausschluss eines Merkmals
- Besteht zwischen zwei Merkmalen ein hoher sachlogischer Zusammenhang, so wird das Merkmal, welches das andere sachlogisch am meisten beeinflusst, entfernt[14].
Auffallend hoch (rot markiert) korrelieren im konkreten Fall ZQ2 und ZQ6. ZQ2 und ZQ1 korrelieren mittelmäßig (gelb markiert), alle weiteren Merkmale korrelieren schwach (Tabelle 2: Korrelationsmatrix) untereinander. Die schwachen und mittel korrelierenden Merkmale fließen in die Clusteranalyse ein, da diese die Cluster nicht erheblich gewichten. Das Augenmerk liegt auf die stark korrelierenden Merkmale. Eine genauere Untersuchung von ZQ2 und ZQ6 zeigt, dass die beiden Merkmal sich zum Teil in einem Punkt konzentrieren, ansonsten aber ein trichterförmiges Streuungsverhalten aufweisen (Anhang B: Abbildung 7).
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2: Korrelationsmatrix
Die Korrelationsanalyse hat ergeben, dass die meisten Merkmale nur sehr schwach oder mittel untereinander korrelieren und so kein Cluster erheblich gewichten. Obwohl der Korrelationskoeffizient bei den Merkmalen ZQ2 und ZQ6 einen hohen linearen Zusammenhang beschreibt, ist dieses nur bedingt aussagekräftig. Die beiden Merkmale konzentrieren sich in einem Punkt, ansonsten streuen diese aber trichterförmig. Es wird daher vermutet, dass somit diese Merkmale die Cluster kaum verzerren werden (Anhang B: Abbildung 7). Im kausalen Zusammenhang könnte vermutet werden, dass hier eine Scheinkorrelation vorliegt[15], da ein Krankenhaus in der Regel kein Pflegeheim inkludiert und umgekehrt. Daher fließen alle Merkmale aus Kapitel Qualität der Daten in die Clusteranalyse, bezogen auf die Zusammenhangsanalyse, ein. Sachlogisch sind alle Merkmale weitestgehend unabhängig, beeinflussen sich also nicht gegenseitig (Kapitel 2.2).
Anhand der Verteilungsanalyse lassen sich Ausreißer vermuten. Als Ausreißer in Frage kommen alle rechtsschief verteilten Merkmale mit Extremwerten. In diesem Fall kommen in Frage die Merkmalsträger Ansbach, Heidelberg und Greifswald. Hier wird später weiter konkretisiert (Kapitel 4.2): Mithilfe des Single-Linkage-Verfahrens werden später Ausreißerobjekte erkannt, um diese aus der Datenbasis zu entfernen, als Vorbereitung zum Erreichen eines bestmöglichen Ergebnisses der Clusteranalyse. Die Clustermerkmale liegen metrisch skaliert, mit einer Streuung und nicht dichotom vor. Somit erfüllen alle Merkmale der Verteilungsanalyse eine Voraussetzung für die Clusteranalyse[16] (Kapitel 4).
[...]
[1] Vgl. (o.A., 2009 S. destatis).
[2] Stichtag: 31.12.2009.
[3] Überblick der ersten Ziffer des AGS bietet Tabelle 19 im Anhang A.
[4] Vgl. (von der Lippe, 2006 S. 302 - 320).
[5] Vgl. (Backhaus, et al., 2011 S. 453) und . (Schendera, 2007 S. 156ff).
[6] Vgl. (Eckstein, 2010 S. 128).
[7] Vgl. (Schendera, 2007 S. 170 - 174) und (Bleymüller, et al., 2008).
[8] Vgl. (Litz, 2003 S. 102) und (Eckstein, 2006 S. 56).
[9] Vgl. (Schendera, 2007 S. 170 - 174).
[10] Vgl. (Backhaus, et al., 2011 S. 449).
[11] Vgl. (Litz, 2003 S. 166f).
[12] Vgl. (Backhaus, et al., 2011 S. 450).
[13] Vgl. (Backhaus, et al., 2011 S. 450) und (Bleymüller, et al., 2008 S. 22).
[14] Vgl. (Ostermann, et al., 2005 S. 101).
[15] Vgl. (Pflaumer, et al., 2005 S. 121).
[16] Vgl. (Backhaus, et al., 2011 S. 449ff).
Kommentare