Využití pravděpodobnostního modelu pro odhadování chybějících údajů

Podstatou výsledku je využití pravděpodobnostního modelu dat ve tvaru diskrétní distribuční směsi pro odhadování chybějících údajů. Metoda byla ověřována na příkladu databáze dotazníků ze sčítání lidu v roce 2001 především z hlediska analýzy přesnosti.

Inovační aspekty

Typickou vlastností výsledků sčítání lidu jsou neúplná data. Datový soubor vytvořený na základě zodpovězených otázek obsahoval celkem 1524240 neúplných dotazníků, tj. přibližně 15%. Celkový počet chybějících údajů byl 2933427. Prostým vynecháním neúplných dotazníků nebo neúplných proměnných by se značně snížila hodnota výsledného souboru.

Přínosy

Navržená metoda založená využití pravděpodobnostního modelu dat ve tvaru diskrétní distribuční směsi umožňuje kvalitní odhad chybějících údajů a výrazně zhodnocuje nákladné statistické šetření. Problematika zpracování resp. doplňování vícerozměrných dat s chybějícími údaji představuje důležitou oblast matematické statistiky, protože většina statistických metod se nedá použít na neúplná data. Připomeňme, že např. prostým vynecháním neúplných datových vektorů by se v našem případě zmenšil soubor o 15% a po vynechání proměnných s chybějícími údaji by se jejich počet zredukoval na pět. Statistický model umožňuje rovněž analýzu chybějících údajů. Výsledky publikované v práci 2. ukazují, že většina chybějících údajů pochází z dotazníků osob, které v době sčítání nebyly v místě bydliště a v místě přechodného pobytu se sčítání nezúčastnili.

Dokumentace

Design downloaded from Free Templates - your source for free web templates