j'ai des caractéristiques qui décrivent un phénomène à différents instants. Afin d'évaluer la performance individuelle de chaque caractéristique, je fais une régression linéaire avec validation croisée, puis je calcule deux corrélations et deux erreurs pour évaluer le résultats.
Donc pour une variable, je fais quelque chose du genre :
- Entrées : phénomène
, caractéristique
- Régression linéaire de
en fonction de
, plus leave one out.
- Calcul de deux corrélations (linéaire et spearman) et de deux erreur (moyenne de erreurs absolues et des carrés)
Pour certaines de ces variables, les deux corrélations sont très bonne (> 0.9), mais lorsque je regarde les valeurs prédites, je m'aperçois qu'elles sont toutes proches de la moyenne (des valeurs à prédire, donc de la moyenne de
Comment est il possible d'avoir de si bonnes corrélations avec d'aussi mauvaises erreurs ?
Y a t-il un moyen de corriger cela ?
Pour les précision techniques, j'utilise weka avec l'option "-S 1" afin de ne pas faire de sélection de variables.
Merci par avance pour votre aide.