Seite 1 von 1

Datensatz in 5 Teilstichproben aufteilen

BeitragVerfasst: Mo 18. Jun 2012, 13:31
von randomme
Moin moin,

ich möchte gerne einen Datensatz in 5 Trainingsdatensätze zerlegen. Die einzelnen Beobachtungen sollen dabei zufällig verteilt werden. Außerdem ist es wichtig, dass eine Beobachtung nicht in zwei Datensätzen vorkommt.
Ich habe zwar schon die Stichproben- sowie die Partitonierungsfunktion gefunden, aber irgendwie bekomm ich es trotzdem nicht hin.
Ich bedanke mich schon mal für eine schnelle Antwort.

LG
Randomme

edit:
Ich hab jetzt mal geschummelt und den Datensatz in xls exportiert, dort zufallszahlen zugewiesen und wieder importiert. Funktioniert zwar, ist aber nicht schön ;)

Re: Datensatz in 5 Teilstichproben aufteilen

BeitragVerfasst: Mo 25. Jun 2012, 20:18
von STATWORX
Hallo,

folgendes Vorgehen wäre hier denkbar, Beispiel:

- N = 1000
- Ausleitung 1. Teilstichprobe über "Stichproben"-Nugget
- Anti-Join dieser Teilstichprobe mit der ursprünglichen Stichprobe
- der resultierende Datensatz wird wieder gesampled
- wieder Antijoin mit dem vorhergehenden Datensatz
- usw.

So erhältst Du 5 Stichproben, in der keine Untersuchungseinheiten doppelt vorkommen.

VG
STATWORX