1 / 34

Problemi di copertura e gestione della qualità dei dati in Whip

Problemi di copertura e gestione della qualità dei dati in Whip. Roberto Quaranta *. *contatti http://sites.carloalberto.org/quaranta/. Problemi di copertura e gestione della qualità dei dati in Whip. WHIP è una banca dati di storie lavorative.

magnar
Download Presentation

Problemi di copertura e gestione della qualità dei dati in Whip

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Problemi di copertura e gestione della qualità dei dati in Whip Roberto Quaranta * *contatti http://sites.carloalberto.org/quaranta/

  2. Problemi di copertura e gestione della qualità dei dati in Whip WHIP è una banca dati di storie lavorative. Permette di studiare i fenomeni socio-economici legati al mercato del lavoro. Tempi di rientro nell’occupazione dipendente Italia

  3. Transizioni tra lavoro dipendente e altre gestioni Individui sopra i 50 anni Turnover, tassi di associazione, separazione e gwt negli anni

  4. Per far questo è importante affrontare e definire il tipo di copertura e la gestione della qualità dei dati • definire bene di chi e di quali storie lavorative stiamo parlando • garantire un’informazione coerente e allo stesso tempo che permetta un utilizzo agevole da parte del ricercatore

  5. I dati che permettono la costruzione di WHIP sono di natura amministrativa e provengono dall’INPS. I dati che ci vengono forniti non sono raccolti per scopi di ricerca ma per scopi gestionali e amministrativi. Chi è presente è definito per legge, le leggi possono cambiare. Le informazioni contenute sono stabilite da normative, circolari... Non tutte le informazioni raccolte servono agli scopi amministrativi e gestionali

  6. WHIP da dove nasce... La fonte originaria dei dati è costituita dagli archivi amministrativi dell’Inps, dai quali viene estratto un ampio campione casuale di record (1/90). le informazioni presenti riguardano gli individui che nell’arco della loro vita lavorativa e di pensionamento hanno avuto rapporti con Inps. … perché hannoversato contributi per la pensione … perché percepiscono delle prestazioni pensionistiche (trattamenti diretti, assegni di invalidità …) e non pensionistiche (sussidio di disoccupazione, mobilità …)

  7. WHIP contiene... Adesso... • Episodi di lavoro parasubordinato • Episodi di disoccupazione (sussidiate) • Episodi di mobilità • Episodi di lavoro dipendente nel settore privato • Attività di lavoro autonomo (artigiano e commerciante) • Episodi di pensionamento erogate dall’Inps In futuro... • Episodi di LSU (lavori socialmente utili) • CIG • Casellario delle pensioni

  8. Mancano ... • Gli episodi lavorativi da dipendente pubblico • quasi tutti gli agricoli • Gli episodi lavorativi da liberi professionisti dotati di una cassa previdenziale autonoma (notai, avvocati, ...)

  9. La banca dati WHIP deve permettere di effettuare delle analisi socio-economiche, per fare questo si deve fare in modo che l’oggetto che si vuole studiare sia ben definito. La banca dati deve essere costruita da un campione rappresentativo dell’“oggetto” d’analisi. Per fare questo si deve passare da una popolazioneInps ad una popolazione adatta ad indagini di tipo statistico – economico si devono armonizzare le informazioni in particolare le informazioni che riguardano i lavoratori dipendenti Perché non tutti presenti in INPS restringendo il nostro interesse al settore PRIVATO non agricolo.

  10. Uniformiamo i dati prendendo solo alcuni settori (Ateco81). Non consideriamo: Settore Agricolo e ... 91 Enti e aziende pubbliche 92 Servizi d'igiene pubblica ed amministrazione di cimiteri 93 Istruzione 95 Sanità e servizi veterinari 96 Altri servizi sociali

  11. Pubblicazione rapporti di lavoro ricostruiti

  12. Enti ed imprese con prestazioni pensionistiche alternative e/o sostitutive all’INPS Documento ISTAT: “L'utilizzo dei dati INPS per la stima trimestrale del numero dei dipendenti, le retribuzioni, il costo del lavoro e le ore lavorate”

  13. Gestione della qualità dei dati e successiva pubblicazione La gestione della qualità è eseguita in due fasi: IN ENTRATA - ricezione e lavorazione dei dati si raccolgono: • informazioni sugli archivi e sulle variabili • informazioni normative e altro • informazioni sulle codifiche dei dati • individuazione dati mancanti e/o scorretti e gestiscono le informazioni mancanti e quelle scorrette IN USCITA - fase di pubblicazione • si ricodificano le informazioni, le informazioni mancanti e/o scorrette • si integrano, si correggono o si evidenzia che l’informazione è mancante

  14. L’analisi di qualità dei dati ricevuti e la ricodifica delle informazioni La procedura di costruzione di WHIP può esser vista come una scatola nera che prende in input gli archivi forniti da Inps, li elabora, e restituisce come risultato degli archivi che rispondono a finalità di analisi statistico-economica. Le operazioni fondamentali della procedura sono: • La normalizzazione, pulizia e ricodifica • L'identificazione longitudinale delle imprese • L'identificazione longitudinale dei rapporti di lavoro • Il consolidamento dei record contributivi in dati annui dei rapporti di lavoro

  15. Inputs Archivi forniti da Inps Outputs ricezione dei dati raccolta documentazione analisi qualità dei dati documentazione on line ricodifica delle informazioni identificazione longitudinale delle imprese identificazione longitudinale dei rapporti di lavoro archivio di storie lavorative

  16. Normalizzazione, pulizia e ricodifica Le Istruzioni di compilazione dei moduli Inps Le Circolari Inps I CUD e la normativa Personale INPS ricezione degli archivi sorgente raccolta documentazione Codifica Correzione Ricodifica analisi qualità dei dati ricodifica delle informazioni

  17. L’analisi di qualità dei dati ricevuti ricodifica delle informazioni archivi sorgente codifiche • Gestiamo: • valori mancanti • codici non riconosciuti

  18. Esempi di correzione e ricodifica Variabile: Qualifica Inps (originale) Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 84074 54.63 84074 54.63 2 51767 33.64 135841 88.26 3 1529 0.99 137370 89.25 4 413 0.27 137783 89.52 5 7102 4.61 144885 94.14 6 722 0.47 145607 94.61 7 288 0.19 145895 94.79 8 252 0.16 146147 94.96 9 2 0.00 146149 94.96 D 2 0.00 146151 94.96 O 3681 2.39 149832 97.35 R 106 0.07 149938 97.42 S 1 0.00 149939 97.42 T 1 0.00 149940 97.42 W 829 0.54 150769 97.96 X 3 0.00 150772 97.96 Y 3136 2.04 153908 100.00 Valori missing 493

  19. Qualifica Inps (ricodificata) codifica variabile, ricodifica e segnalazione informazioni mancanti e non corrette Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 8454 5.49 153907 100.00 2 88477 57.49 88477 57.49 3 55445 36.02 143922 93.51 5 1531 0.99 145453 94.51 ood 1 0.00 153908 100.00 missing 493

  20. Correzione mesi retribuiti - dicembrini

  21. Correzione codice contratto

  22. CorrezioneInquadramento

  23. Inquadramento: Situazione iniziale Valori originali Frequenze ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 7 0.45 7 0.45 00 1 0.06 8 0.52 000 2 0.13 10 0.64 0000 1 0.06 11 0.71 0002 4 0.26 15 0.97 0003 5 0.32 20 1.29 0004 1 0.06 21 1.35 0007 1 0.06 22 1.42 001 11 0.71 33 2.13 002 4 0.26 37 2.38 07 1 0.06 101 6.51 1 51 3.29 152 9.79 1 / 3 0.19 155 9.99 1 L 1 0.06 156 10.05 10 2 0.13 158 10.18 11 3 0.19 161 10.37 1150 1 0.06 162 10.44 12 2 0.13 164 10.57 130 1 0.06 165 10.63 14 1 0.06 166 10.70 160 1 0.06 167 10.76 18 1 0.06 168 10.82 198 1 0.06 169 10.89 1^ 2 0.13 171 11.02 1^LI 1 0.06 172 11.08 2 375 24.16 547 35.24 2 GR 1 0.06 548 35.31 2 L 4 0.26 552 35.57 2 LI 3 0.19 555 35.76 ancora...

  24. 2 LV 1 0.06 556 35.82 2' 2 0.13 558 35.95 2'L. 1 0.06 559 36.02 2. 17 1.10 576 37.11 2.L 1 0.06 577 37.18 2/L 5 0.32 582 37.50 20 8 0.52 590 38.02 25 1 0.06 591 38.08 254 1 0.06 592 38.14 2B 1 0.06 593 38.21 2D 2 0.13 595 38.34 2L 38 2.45 633 40.79 2LIV 12 0.77 645 41.56 2O 1 0.06 646 41.62 2^ 3 0.19 649 41.82 2^L 3 0.19 652 42.01 D 8 0.52 1516 97.68 D2 1 0.06 1517 97.74 DIR 1 0.06 1518 97.81 DIR. 1 0.06 1519 97.87 DOM 1 0.06 1520 97.94 E/2 2 0.13 1522 98.07 EP 1 0.06 1523 98.13 II 2 0.13 1525 98.26 IM.5 1 0.06 1526 98.32 L 2 0.13 1528 98.45 L.2 3 0.19 1531 98.65 L.4 1 0.06 1532 98.71 L.DO 1 0.06 1533 98.78 L3 5 0.32 1538 99.10 L4 1 0.06 1539 99.16 L5 5 0.32 1544 99.48 L6 1 0.06 1545 99.55 LD 3 0.19 1548 99.74 LV3 1 0.06 1549 99.81 OP. 1 0.06 1550 99.87 QD 1 0.06 1551 99.94 V 1 0.06 1552 100.00

  25. Risultatofinale Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 76 5.17 76 5.17 2 520 35.35 596 40.52 3 407 27.67 1003 68.18 4 180 12.24 1183 80.42 5 162 11.01 1345 91.43 6 66 4.49 1411 95.92 7 51 3.47 1462 100.00 Missing 105

  26. Correzione Retribuzione Numero di correzioni fatte su ogni anno Sembrano poche correzioni

  27. Correzione Retribuzione 1997 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 22.118 21.349 1062.980 comp_altre 3.514 6.025 641.240 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1998 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 39.284 1.488.292 504.035.062 comp_altre 6.702 130.853 16.836.674 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1999 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 28.304 964.855 234.219.252 comp_altre 4.665 293.959 117.575.969 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

  28. L’analisi di qualità dei dati pubblicati • In fase di pubblicazione vengono eseguiti ulteriori controlli: • sui dati mancanti • sui dati scorretti

  29. ... Correzioni meno consistenti • Provincia di lavoro ... e più consistenti:

  30. Correzione codice contratto

  31. Correzione Inquadramento

  32. L'identificazione longitudinale delle imprese e delle trasformazioni societarie Serve per poter avere dati di impresa affidabili (e di conseguenza anche per poter identificare i rapporti di lavoro) E’ necessaria perché WHIP ha una dimensione longitudinale che è ben superiore al numero di anni (cinque) per i quali l'Inps costruisce i record dell'Osservatorio delle Imprese, dal quale è estratto il campione oggetto di fornitura. Tra edizioni successive dell'Osservatorio possono cambiare i codici identificativi delle imprese, e può cambiare la composizione stessa dell'impresa per scorpori, fusioni e altre trasformazioni societarie.

  33. L'identificazione longitudinale dei rapporti di lavoro Non esistendo una relazione uno a uno tra gli episodi di contribuzione dichiarati e rapporti di lavoro instaurati dalla persona (la relazione è del tipo molti a molti). Non è registrata esplicitamente una data di inizio del rapporto di lavoro, e la data di cessazione - seppur presente - è di qualità carente, sia in termini di valori missing che di valori scorretti

  34. Impatto della ricostruzione sulla identificazione dei rapporti di lavoro

More Related