Datenaufbereitung
Bevor der Prozess der Datenauswertung beginnen kann, müssen die Daten in ein Datenfile eingespiesen, aufbereitet und kontrolliert werden. Dies stellt einen zeitaufwändigen, aber wichtigen Arbeitsschritt dar, bei welchem die Kontrolle und die Beseitigung von Fehlern eine bedeutende Rolle spielen. Das Ziel der Datenaufbereitung besteht darin, einen qualitativ hoch stehenden, analysefähigen Datensatz zu erhalten um in der anschliessenden statistischen Datenanalyse die geforderten Auswertungen möglichst reibungslos vorzunehmen. Aufgrund der Nachvollziehbarkeit müssen alle am Originaldatensatz vorgenommenen Änderungen dokumentiert werden.
Datenerfassung
Die Daten auf Fragebogen, Beobachtungsprotokollen oder Kodierbogen von Inhaltsanalysen werden im Rahmen der Datenerfassung in ein Datenfile eingespiesen. Dabei wird jede Frage und Teilfrage zu einer Variablen und jede Antwortmöglichkeit erhält eine entsprechende Variablennummer. Sofern bereits die Erhebung computerunterstützt war, wurden die Daten direkt in ein Datenfile abgespeichert und stehen bereit zur Plausibilisierung. Fehlende Angaben (missing data) werden in der Regel mit hohen Codeziffern (beispielsweise 99 für unbeantwortete Frage) bezeichnet.
Plausibilisierung
Die Plausibilisierung stellt einen wichtigen Aspekt der Daten-Qualitätssicherung dar. Im Rahmen der Plausibilisierung wird überprüft, ob Daten plausibel, d.h. annehmbar sind. Hierbei geht es um eine grobe Kontrolle zur Aufdeckung offensichtlicher Fehler. Zum Beispiel weist ein errechnetes Durchschnittsalter von 117 Jahren darauf hin, dass die Daten nicht plausibel sind und eine Nachkontrolle vorgenommen werden muss. Computerunterstütze Auswertungssoftware wie beispielsweise SPSS bieten eine Reihe von Plausibilitätschecks an.
In einem nächsten Schritt folgt die Identifikation und Bereinigung von Fehlern, welche grundsätzlich von folgender Art sein können:
- Werte ausserhalb der vorgesehenen Codeziffern (Wild Codes)
- Unplausible Werte wie Ausreisser (outlier)
- Inkonsistente Werte
Diese Wild Codes, unplausiblen und inkonsistenten Werte können mit dem Computerprogramm relativ einfach herausgefiltert, allenfalls nachträglich noch korrigiert werden. Ebenfalls können fehlende Angaben (missing data) herausgefiltert werden, so dass sie für die statistische Datenanalyse nicht berücksichtigt werden.