Two step Cluster-Analyse und der Koeffizient

Faktoren- und Clusteranalysen, Diskriminanzanalysen und weitere multivariate Verfahren aller Art mit SPSS

Two step Cluster-Analyse und der Koeffizient

Beitragvon Alphex » Mi 1. Okt 2014, 03:52

Hallo,

ich hoffe, ich bin hier richtig mit meiner Anfrage :-) Und zwar habe ich folgendes Szenario:

Ich habe einen relativ großen Datensatz (knapp 5000 Fälle) mit Variablen, die zwischen nominal bis metrisch fast alle Niveaus bieten (übliche Parameter wie Geschlecht, Alter, Schulbildung z.B., aber auch Mediennutzung und Arbeitssituation). Ich wollte nun Indizes bilden und eine two-step Clusteranalyse durchführen, da ich sowas wie Geschlecht halt nicht auf metrisch "gebläht" kriege, und Items wie "Arbeitssituation" auch nur nominal, nicht metrisch erfassbar ist, es aber zwei sehr wichtige Items sind.

Es gibt bei der Clusteranalyse ja die Möglichkeit, den Koeffizienten zu wählen, dass er gemeinsame Nichtausprägungen nicht als Gemeinsamkeit wertet. Vor allem bei dummies ist das meines Wissens nach nützlich: Wenn zwei Personen nicht in der CDU sind, nicht in der FDP, nicht bei den Grünen und nur bei der SPD ergäbe das bei dem Werten von Nichtausprägungen 4 Gemeinsamkeiten, obwohl es eigentlich nur eine ist.

Daher hätte ich folgende Fragen zur two-step Clusteranalyse:

=> Frage 1: Kann man den Koeffizienten bei der two-step Analyse für die binären Variablen einstellen?

=> Frage 2: Wenn nein, welchen Koeffizienten benutzt die Analyse? Zählen gemeinsame nicht-Ausprägungen als Gemeinsamkeit?

=> Frage 3: Wenn gemeinsame nicht-Ausprägungen als Gemeinsamkeit gezählt werden: Gibt es eine Möglichkeit, Autokorrelation (wie oben genannt, wo aus einer Gemeinsamkeit 4 werden) bei nominalen Variablen zu verhindern? Transformation in metrische fällt ja leider weg.

=> Frage 4: Bringt es den Algorithmus aus dem Konzept, wenn die binären Variablen unterschiedlich kodiert sind, (sprich, einmal mit 0,1 und einmal mit 1,2) oder wertet der nur die Distanz und von daher ist es egal?

=> Frage 5: Sollten die binären und die metrischen Variablen in etwa gleich viele sein? Ich habe 3 binäre Variablen, aber deutlich mehr metrische Variablen. Wiegt dann eine einzelne binäre mehr, weil es nur wenige binäre gibt, oder werden die Variablen insgesamt verrechnet?

Ich wäre echt froh, wenn mir jemand von euch weiter helfen könnte. Die einschlägige Literatur hat leider nur sehr wenig Infos zu diesen Feinheiten, daher wende ich mich nun an euch.

Danke schon mal! :-)
-AR
Alphex
 
Beiträge: 2
Registriert: Mi 1. Okt 2014, 03:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Two step Cluster-Analyse und der Koeffizient

Beitragvon strukturmarionette » Mi 1. Okt 2014, 10:09

Hi,

=> Frage 1: Kann man den Koeffizienten bei der two-step Analyse für die binären Variablen einstellen?


- Es lassen sich katagoriale und nicht kategoriale Variablen integrieren.

- Welche Art von Koeffizienten meinst Du bzw. welche 'Einstellung' diesbezüglich?

Gruß
S.
strukturmarionette
 
Beiträge: 2459
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 7
Danke bekommen: 122 mal in 122 Posts

Re: Two step Cluster-Analyse und der Koeffizient

Beitragvon Alphex » Mi 1. Okt 2014, 15:27

Mit den Koeffizienten meine ich den Simple Matching Koeffizienten und den von Russel & Rao im Gegensatz zu Jaccard / Tanimoto. Bei der normalen Clusteranalyse kann man den wählen, bei der two step (scheinbar?) nicht. Allerdings finde ich keine Info, welcher Ähnlichkeitskoeffizient da nun verwendet wird.

Der Jaccard-Koeffizient wertet bei kategorialen Variablen nur solche Fallpaare, wo beide Fälle eine positive Ausprägung haben, als Übereinstimmung. Wenn zwei Personen beide KEINE Socken tragen, zählt das NICHT als Übereinstimmung. Es muss eine VORHANDENE Eigenschaft sein, damit der Koeffizient es wertet.

Bei den anderen beiden werden auch gemeinsame nicht-Ausprägungen als Gemeinsamkeit gewertet. Wenn zwei Leute also KEINE Socken tragen, wird das nach denen als Gemeinsamkeit gewertet.
Alphex
 
Beiträge: 2
Registriert: Mi 1. Okt 2014, 03:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Multivariate Verfahren

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron