Zusammenfassung in "Restkategorie" nach Anteil

Allgemeine Fragestellungen zu Statistik mit SPSS.

Zusammenfassung in "Restkategorie" nach Anteil

Beitragvon doryphoros80 » Sa 21. Nov 2015, 15:16

Hallo liebe SPSS-Experten,
ich stehe beim Datenmanagement von Daten aus einer Inhaltsanalyse und deren (deskriptiver) Auswertung vor folgenden zwei (zusammengehörigen) Problemen, für die mir bisher keine Lösung eingefallen ist.

:?: Problem A:
Ich habe eine nominale Variable ("Beitragsthema") mit sehr vielen möglichen Ausprägungen (über 100). In meinen ca. 3000 Fällen (Beiträge in TV-Sendungen) kommen von diesen Beitragsthemen einige sehr oft, einige sehr selten vor. Um die Auswertung übersichtlicher zu gestalten, würde ich gern alle Beiträge zu Themen, die insgesamt weniger als 5 % der Fälle ausmachen in der Kategorie "Sonstiges Thema" zusammenfassen. Also eine neue Variable "Beitragsthema2" erstellen, in der jene Themen, die selten sind, mit einem Code für "Sonstiges Thema" codiert sind.
Bisher habe ich mir damit beholfen, eine Häufigkeitsauswertung der Themen nach Excel zu exportieren und dort nach Häufigkeitsanteil zu sortieren, und die Auswertung dort zu erstellen. Das ist aber sehr umständlich uns ich suche nach einem eleganteren Weg innerhalb von SPSS, der dann auch (per Syntax) reproduzierbar ist für andere Daten.

:?: Problem B:
Im nächsten Schritt wird es noch komplexer: Da es sich um Beiträge in TV-Sendungen handelt, lässt sich der Anteil der Themen in allen Sendungen nicht nur nach Fallzahl (Alle Beiträge = 100%, Zahl Beiträge zu Thema X = y%) ausdrücken, sondern auch nach Zeitdauer. Für alle Beiträge ist die Variable "Beitragsdauer" im Format "hh:mm:ss" erhoben. Daher lässt sich nun der Anteil des Themas X an der Berichterstattung nicht nur auf die Häufigkeit, sondern auch auf die Dauer beziehen (Summe "Beitragsdauer" aller Fälle = 100%, Summe "Beitragsdauer" zu Thema X= y%).

:idea: Also als Beispiel:
In allen Sendungen der Tagesschau wird in insgesamt 1000 Beiträgen über 150 verschiedene kategorisierte Themen berichtet.
500 Beiträge widmen sich dem Thema "Innenpolitik" (=50% der Fälle).
300 Beiträge dem Thema "Katastrophen" (=30% der Fälle).
Auf das Thema Innenpolitik entfallen aber von 91:15:00 h (=100% Sendedauer) nur 27:22:30 h der Sendezeit (=30% Sendedauer).
Auf "Katastrophen" dagegen 45:37:30 h (=50% Sendedauer).
Diese ersten beiden Themenbeispiele dienen nur als Verdeutlichung, warum die Anteilsauswertung nach Sendezeit wichtig ist.
Für andere Themen gibt es dagegen nur wenige Kurzmeldungen: "Sport" (20 = 2% der Fälle), "Wetter" (10 = 1% der Fälle), "Boulevard"(10 = 1% der Fälle), "Kultur" (5 = 0,5 % der Fälle) und "Bildungspolitik" (5 = 0,5 % der Fälle) Auf sie entfallen jeweils insgesamt 00:54:45h Sendezeit (=jeweils 1 % der Sendezeit).
Nun sollen also die fünf letztgenannten Themen in der neuen Variable "Beitragsthema2" in der Kategorie "Sonstiges Thema" zusammengefasst werden, weil sie:
(Problem A) jeweils in der Fall-Summe nicht über 5% liegen und
(Problem B) jeweils in der Sendedauer-Summe nicht über 5% liegen.

-----------------

Wie lassen sich diese Probleme praktisch lösen? Ich vermute, dass es über eine Schleifen-Prozedur mit einigen Hilfsvariablen möglich sein müsste, dass für jeden Fall eine Variable erstellt wird, die den Gesamtanteil der Themenkategorie in jeder Zeile hinterlegt. Anschließend dann die "Berechnung" der neuen Variable "Beitragsthema2" mit "IF-Befehl" festgelegt wird, in welchen Fällen das ursprüngliche Thema kopiert wird und in welchen Fällen der neue Code für "Sonstiges Thema" eingetragen wird. Aber mir fehlt hier der richtige Ansatz. Insbesondere weiß ich nicht, wie ich Anteilswerte in der Syntax berechnen könnte und sie anschließend Fällen in Abhängigkeit bestimmter Variablenausprägungen zuordnen kann.
An der Stelle noch zur Erläuterung: Es handelt sich auch bei den Themenvariablen um numerische, nominale Variablen, also jedem Thema ist ein Zahlencode zugeordnet.

Ich wäre für sachdienliche Hinweise sehr dankbar. Da ich zwar mit Syntax arbeite, aber kein "Experte" bin, wäre es besonders hilfreich, wenn diejenigen von euch, die hier helfen können, Ihre Hinweise möglichst konkret machen.
Vorab schonmal allerbesten Dank. Ich bin auch gern bereit (sofern es eine endgültig funktionierende Lösung gibt), diese hier zu dokumentieren.
doryphoros80
 
Beiträge: 1
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Zusammenfassung in "Restkategorie" nach Anteil

Beitragvon ponderstibbons » Sa 21. Nov 2015, 19:52

Das ist aber sehr umständlich uns ich suche nach einem eleganteren Weg innerhalb von SPSS, der dann auch (per Syntax) reproduzierbar ist für andere Daten.

Funktion Daten Aggregieren, break Variable ist "Themen". Neue Variable erzeugen lassen,
in der die Zahl der Fälle pro break-Variablen-Ausprägung angegeben wird.

Mit freundlichen Grüßen

P.
ponderstibbons
 
Beiträge: 2481
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 1
Danke bekommen: 256 mal in 255 Posts


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron