Datensatz in 5 Teilstichproben aufteilen

Fragen rund um die Erstellung und den Aufbau von Modeler-Streams.

Datensatz in 5 Teilstichproben aufteilen

Beitragvon randomme » Mo 18. Jun 2012, 13:31

Moin moin,

ich möchte gerne einen Datensatz in 5 Trainingsdatensätze zerlegen. Die einzelnen Beobachtungen sollen dabei zufällig verteilt werden. Außerdem ist es wichtig, dass eine Beobachtung nicht in zwei Datensätzen vorkommt.
Ich habe zwar schon die Stichproben- sowie die Partitonierungsfunktion gefunden, aber irgendwie bekomm ich es trotzdem nicht hin.
Ich bedanke mich schon mal für eine schnelle Antwort.

LG
Randomme

edit:
Ich hab jetzt mal geschummelt und den Datensatz in xls exportiert, dort zufallszahlen zugewiesen und wieder importiert. Funktioniert zwar, ist aber nicht schön ;)
randomme
 
Beiträge: 1
Registriert: Mo 18. Jun 2012, 13:21
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatz in 5 Teilstichproben aufteilen

Beitragvon STATWORX » Mo 25. Jun 2012, 20:18

Hallo,

folgendes Vorgehen wäre hier denkbar, Beispiel:

- N = 1000
- Ausleitung 1. Teilstichprobe über "Stichproben"-Nugget
- Anti-Join dieser Teilstichprobe mit der ursprünglichen Stichprobe
- der resultierende Datensatz wird wieder gesampled
- wieder Antijoin mit dem vorhergehenden Datensatz
- usw.

So erhältst Du 5 Stichproben, in der keine Untersuchungseinheiten doppelt vorkommen.

VG
STATWORX
STATWORX
Administrator
 
Beiträge: 87
Registriert: So 25. Sep 2011, 16:21
Danke gegeben: 0
Danke bekommen: 6 mal in 6 Posts


Zurück zu Streams und Aufbau

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron