CALIBRATION, PAST, PRESENT and FUTURE?

CALIBRATION, PAST, PRESENT and FUTURE? Jean-Claude DEVILLE Ecole Nationale de la Statistique et de l’Analyse de l’Information/crest/Laboratoire de Statistique d’Enquête, Campus de Ker-Lann, 2 rue Blaise Pascal – 35170-BRUZ -deville@ensai.fr

0-Standard calibration principle Calibration equations : xk : p-vector of auxiliary variables X : total of the xk dk : design weights We are seeking for new weights wk is a p-vector and the Fk are regular functions of ONE variable verifying:

Standard calibration principle The modified estimator is approximately unbiased and its variance is given by the residual trick where the ek are the residuals of the regression with weightsqk Their classical form comes from the fact that thy are deduced by minimizing a distance function between the old and the new weights.

1 Generalized calibration We start from functions Fk and we seek for weights having the form: where with • The usual case is the’generalized linear’ where we use only one function F monotonic, regular, verifying F(0)=1 . Define Therefore we have : The simplest case (linear) is obtained with Fk(u) = zk is then a variable with p componants known on the sample.

The calibrated weights have the expression: The calibration equations are: with We then get Results are as in Deville-Särndal(1992) : - convergence and negligable bias. -All the estimators having the same zk have the same asymptotic variance . -It can be evaluated from the linear case, where we have:

Generalized calibration This is exactly the instrumental regression (Fuller (1987)) using the zk as instruments. The variance of the estimator is computed by the residual trick using the residuals of this regression. Variance estimation follows the same lines. The "instruments" zk have to be known ONLY on the sample: they are NOT an external auxiliary information. Generalized calibration is one of the novelties included in CALMAR II (Sautory,Le Guennec(2003))

2-CALIBRATION FOR DEALING WITH NON-RESPONSE • A parametric model for response probabilities is defined by: In practice a generalized linear model: The calibration estimating equations are:

Non-response

non-response REMARK: it possible to include in the response model variables which are NOT observed for the non-respondant. In particular they may also be variable of interest. This give interesting perspectives for ‘non-ignorable’ non-response.

A GOOD EXAMPLE/EXERCISE

OUI NON NON REPONSE ENSEMBLE Garçons 40 80 180 300 Filles 20 160 120 300 ENSEMBLE 60 240 300 600 Les corrections destinées à compenser les effets de la non réponse demandent une connaissance très précise des facteurs qui la causent. En particulier, si ce que l’on veut mesurer influe directement sur la probabilité de réponse, on est amené à prendre des risques avec les données. Voici un petit exemple fictif : un groupe d’étudiants est interrogé sur sa consommation de drogue. Les résultats de l’enquête sont les suivants : Naïvement on dirait que le pourcentage de consommateurs est estimé par 60/(240+60)=25%. Cette estimation est faite sous l’hypothèse que les non-répondants ont le même comportement que les répondants. Mais on remarque que le taux de réponse des filles est plus important que celui des garçons. Pour corriger cela, on calcule le taux de consommateurs chez les filles, soit 1/9, et chez les garçons soit 3/9, et on conclut que la population étudiante observée est consommatrice à 2/9=22,2%. Si maintenant on pense que c’est le fait de consommer qui induit la non-réponse, le modèle a deux paramètres pouiet pnon , respectivement probabilité de répondre des consommateurs et des non-consommateurs. On trouve que ces probabilités valent respectivement 0,2 et 0,8. Le nombre estimé de consommateurs est donc de 200 chez les garçons et 100 chez les filles et l’estimation du pourcentage global est de 50% !

CALIBRATION ON IMPRECISE DATA L’information auxiliaire X est maintenant supposée incertaine (autres enquêtes, d’estimations d’experts). X et estiment sans biais le même vecteur X0 ,les variances de ces deux quantités étant connues ou estimées de façon fiable. Cette estimation peut être comprise comme une estimation par la régression raccourcie (ridge): chercher un estimateur linéaire de Y de la forme laissant l’estimation sans biais. Si X est indépendant de le vecteur optimisant est évidemment: B =((Var( ) + Var(X))-1 Cov( ) Une approximation commode de cette quantité, exacte en cas de sondage aléatoire simple, est ce qui donne les poids :

Autrement dit la régression est du genre ridge et on peut montrer que la variance de l’estimateur vaut On l’estime par celle de l’estimateur GREG augmentée d’un terme connu. Il est intéressant de noter que cet estimateur reçoit aussi une interprétation en termes de calage. Si on l’applique aux xk , on obtient en effet : soit l’estimateur (quasi)optimal formé par combinaison linéaire de X et . On peut donc dire que l’estimateur est calé sur et en déduire une autre expression des poids et de la variance en fonction de au lieu de X. Des idées analogues peuvent être développées dans le cadre du calage généralisé (avec non réponse).

CALAGE ET ECHANTILLONNAGE INDIRECT L’échantillonnage indirect (ou Méthode généralisée du partage des poids, Lavallée(2002)) consiste à échantillonner dans une population UA liée à une population UB qu’elle permet d’’attraper’. Elle conduit à des estimateurs sans biais de variance connue et estimable pour les variables de UB. On peut aussi, grâce au calage généralisé, renforcer l’estimateur ‘naturel’ en le calant simultanément sur des totaux auxiliaires connus de variables de UA et de UB. L’essentiel des résultats se trouve dans Lavallée(2002), chapitre 7. Le calage sur des informations relatives à plusieurs unités statistiques emboîtées (ménages et individus par exemple) est un cas particulier de cette approche

CALAGE SUR DES FONCTONS DE REPARTITION Ren(2000), Breidt et Opsomer(2000), Goga(2002,2005) Le calage sur la fonction de répartition d’une variable auxiliaire continue n’est autre qu’une variante de la poststratification à l’aide de tranches de cette variable. La question est de choisir un estimateur de l’espérance de ykconditionnelle à xk (à condition de donner un sens à cette notion dans le cadre des populations finies). L’estimateur du total des yk est alors C’est toujours un estimateur linéaire (pondéré), et, idéalement, sa variance est voisine de celle de . Le calage sur plusieurs fonctions de répartition n’a pas donné lieu à publication. C’est une extension de la technique du raking-ratio analogue à l’extension de la poststratification décrite ci-dessus.

CALAGE INVERSE ET DONNEES ABERRANTES (Ren et Chambers (2003)) On commence par définir un estimateur robuste du total Y. On cherche ensuite à modifier les valeurs aberrantes ‘vraies’ , par des valeurs plus ‘normales’ telles que La contribution au total ‘robuste’ des valeurs aberrantes est connue et vaut L’objectif est donc d’imputer des valeurs ,telles que De plus, on recherche des valeurs imputées proches des valeurs vraies. En posant, pour , avec et , on retrouve un problème de calage où  est solution de Si, par exemple, F est linéaire on trouve :

3-ESTIMATION OF A NON-LINEAR FUNCTIONAL BYCALIBRATION ON A SET OF FUNCTIONNALS (hypercalibration?)

hypercalibration

hypercalibration:example

hypercalibration: variance and variance estimation

hypercalibration:weighted estimator

Hypercalibration:weighted estimator 2 is the solution of where As We get the linearized variable: As is : the linearized of tk – B sk where • B is the regression of t on s using z as instument. • In the case of totals, we get the previous results.

Hypercalibration:example of weighted estimator 2 An example : T=Y/X (ratio) is to be estimated, and sk=yk /xk isobserved on the sample and available on the frame. One can build a weighted estimator with the calibration function: (sample s<) Instruments! (sample s>) The calibration equation is : And finally:

Exportation towards classical statistics Empirical Likelihood? Seems to be nothing else than classical calibration using Kulback-Leibler distance centered at the ‘model’ instead of the ‘true value’.Already present in my paper of 92. The likelihood argument was cut in th final version to make it short and to avoid pedantry.See for instance papers by Changbao Wu or JNK Rao. Calibration principe: it’s what I called ‘hyper’calibration. Applicable to classical statistics in problems like estimating a median knowing the mean of the distribution. In parametric statistics, estimation by maximum likelihood using the known true value of an auxiliary parameter(eg log-normal law) is a particular case of the principe. Variance estimation seems to be tackled by balanced bootstrap, a technique in progress which poses some intricate questions of balancing a sample WITH replacement!

CALIBRATION, PAST, PRESENT and FUTURE?