TP 1 : initiation au logiciel SAS : manipulation, création et

Université d’Evry-Val d’Essonne
M1 Maths Statistiques Appliquées SAS
2011-2012
TP 1 : initiation au logiciel SAS : manipulation, création et
importation de données
Exercice 1
1. création de données
2. manipulation de données
3. format des données
Exercice 2
1. importation de jeu de données à partir de fichiers .txt
2. impression des données
Exercice 3
1. création de libraire avec les données
Exercice 4
1. importation de données
2. manipulation de données
Exercice 5
Un agronome cherche à étudier la relation entre le taux de DDT d’un brochet et l’âge du
brochet. Il dispose pour cela d’un échantillon de n = 15 brochets pour lesquels on a son âge x
et la mesure de son taux de DDT y.
âge
Taux de DDT
âge
Taux de DDT
2
2
2
3
3
3
4
4
4
0,20 0,25 0,18 0,19 0,29 0,28 0,31 0,33 0,36
5
5
5
6
6
6
0,71 0,38 0,47 1,10 0,87 0,83
Les données sont présentées dans le fichier ”brochet.txt”. Importer le jeu de données ”brochet.txt”.
Exercice 6
Un fortifiant F est essayé sur 30 rats. 10 rats sont élevés sans fortifiant et on répartit les autres
en 4 groupes de 5 rats chacun : 5 rats recoivent 1 mg de F , 5 autres 2 mg de F , 5 autres 3 mg
de F , et les 5 derniers, 4 mg de F . On mesure le poids de chaque rat après 2 mois de traitement.
On obtient les résultats suivants :
Dose de Fortifiant F
Poids
0
84,9
106,1
114,8
109,2
112,0
1
82,9 114,3
99,6 107,4
98,2 124,9
84,3 98,9
118,0 124,3
2
128,8
112,8
114,0
118,2
119,5
3
125,5
122,6
114,1
109,3
102,2
4
129,1
121,3
116,6
101,8
130,3
Créer le jeu de données correspondant avec SAS. L’exporter dans un fichier ”rat.txt”.
Exercice 7
Un forestier s’intéresse aux hauteurs moyennes de trois forêts. Pour les estimer, il échantillonne
un certain nombre d’arbres et mesure leurs hauteurs. On souhaite tester si la hauteur moyenne
des arbres est la même dans les 3 forêts. Les données se trouvent dans le fichier ”foret3.txt”.
Importer le jeu de données.
Exercice 8
On souhaite étudier la variation du taux d’hémoglobine dans le sang Y au cours d’une opération
chirurgicale en fonction de la durée de l’opération D et du volume de sang perdu pendant
l’opération V . L’objet de l’étude est d’expliquer par un modèle linéaire la variable Y en fonction
des deux variables explicatives D et Z. On dispose des résultats suivants où yi représente
la valeur observée en pourcentage de la variation du taux d’hémoglobine, di est la durée de
l’opération en heures décimales et vi est le volume en litres de sang perdu.
yi
di
vi
-1.70
1.75
0.52
-4.61
1.33
0.59
-5.82
1.43
0.61
-1.17
1.86
0.50
-4.23
1.81
0.54
-3.31 +0.42
1.66
1.60
0.49
0.27
-2.98
2.00
0.47
Créer le jeu de données correspondant et l’exporter dans un fichier ”hemoglobine.txt”.
Exercice 9
Considérons un gène bi-allélique d’allèles B et b, dont on soupçonne qu’il module la concentration sanguine d’une certaine protéine. On a recruté une centaine d’individus, on les a génotypés
pour le gène considéré et on a mesuré la concentration sanguine chez chacun d’eux. Les résultats
sont les suivants :
Génotype BB
Génotype Bb
Génotype
4,34 5,63 5,36
4,41 5,76 4,34 5,50 5,81
7,16 5,25 2,27
5,23 4,00 4,01 3,86 3,87
5,04 5,31 4,51
5,00 4,85 6,57 5,22 4,61
6,78 4,09 6,91
3,62 3,67 5,42 3,92 5,47
5,82 4,88 4,38 7,21 5,01
5,21 5,80 6,16
5,44 5,82 3,74 6,47 4,60
4,89 4,93 7,27 2,29 6,22
5,51 4,14 7,47
2,76 4,24
4,93 6,19 4,83 6,89 4,90
3,33 4,36 6,77
5,41 4,09 5,64 4,15 6,16
3,97 5,39 4,02
5,47 6,67 5,10 6,09
5,00 4,98 4,42
3,23 4,71 5,12
Créer le jeu de données SAS correspondant et l’exporter dans un fichier ”gene.txt”.
bb
5,48
5,16
4,69
1,40
4,23
3,86
5,15
3,14
4,36
5,38
Exercice 10
Une étude de 1986, dans le Massachusetts (USA) cherche à analyser les facteurs de risque au
cours de la grossesse d’accoucher d’un bébé de "faible poids", c’est-à-dire de poids inférieur à
2500 g. Pour chaque femme, on dispose des informations suivantes.
- id : identifiant
- age : age de mère en années
- lwt : poids de la mère juste avant la grossesse
- race : race de la mère (1 = blanche, 2 = noire, 3 = autre)
- smoke : indicateur fumeuse/non fumeuse (1=oui, 0=non)
- ptl : Nombre d’alertes d’accouchement prématuré
- ht : indicateur d’hypertension pendant la grossesse (1=oui, 0=non)
5,79
5,90
2,55
6,81
6,31
4,47
3,39
5,63
6,95
- ui : indicateur d’irritabilité utérine (1=oui, 0=non)
- ftv : nombre de visites médicales durant le premier trimestre
- bwt : poids de naissance du bébé en grammes
- low : indicateur de bébé de faible poids avec low=1 si bwt< 2500g et 0 sinon.
Importer le jeu de données ”lowbwt.txt”.
Exercice 11
Lorsqu’un forestier évalue la vigeur d’une forêt, il considère souvent la haureur des arbres
qui la compose. Plus les arbres sont hauts, plus la forêt ou la plantation produit. Si l’on cherche
à quantifier la production par le volume de bois il est nécéssaire d’avoir la hauteur de l’arbre
pour calculer le volume du bois grâce à une formule du type ”tronc-cône”. Cependant la mesure de la hauteur d’un arbre d’une vingtaine de mètres n’est pas aisée. Il est alors nécessaire
d’estimer la hauteur grâce à une mesure simple, la mesure de la circonférence à 1 mètre 30
du sol. Les données sont consituées de n = 1429 mesures couples circonférences-hauteur, mesures obtenues sur une parcelle d’eucalyptus agés de 6 ans (age de rotation avant la coupe).
Ces données sont dans un fichier eucalyptus.txt. Nous souhaitons donc trouver la relation qui lie
la circonférence à la hauteur de façon à prédire la hauteur d’un arbre à partir de sa circonférence.
Importer le jeu de données sous SAS.
Exercice 12
Chez des patients ayant des problèmes cardiaques, on a mesuré la vitesse de circulation du sang
(par effet Doppler) Y dans les artères coronaires. On cherche à étudier l’effet de deux variables
quantitatives sur cette vitesse, à savoir le taux de choléstérol T et le poids P . On dispose des
données suivantes : pour chaque patient i, i = 1, · · · , 20 on mesure son poids pi , son taux de
choléstérol ti , et sa vitesse de circulation sanguine yi .
pi
45
48
50
50
52
53
56
ti
2.7
2.0
1.8
2.2
1.7
2.5
2.8
yi
75.09
77.41
77.88
76.52
77.00
72.09
71.96
pi
58
63
66
66
69
72
74
ti
2.1
1.8
2.4
2.9
2.0
2.6
1.7
yi
72.42
69.63
70.60
68.62
68.53
67.88
66.28
pi
79
79
84
89
90
98
ti
3.0
1.9
2.1
1.8
2.5
2.9
yi
64.22
66.34
62.34
61.06
59.68
55.81
Créer le jeu de données correspondant et l’exporter dans un fichier ”doppler.txt”.
Exercice 13
On compare l’effet de trois traitements contre le paludisme, en mesurant le temps de clairance
parasitaire chez des patients symptomatiques, répartis de façon aléatoire en trois groupes. Les
résultats sont les suivants (en heures) :
Traitement 1
33
55
96
75
22
68
78
65
54
41
48
65
Traitement 2
Traitement 3
49
73
62
90
62
71
88
119
60 92
51 94
107 67
40 92
112 65
85 95
Créer le jeu de données correspondant.
Exercice 14
Ce jeu données contient les informations sur une cohorte de 609 hommes ayant été suivis sur
une période de 7 ans. Il s’agit d’étudier la variable d’intérêt "apparition ou non d’une maladie
cardiaque des coronaires”.
Les variables sont définies ci-dessous :
id identifant du sujet. Chaque observation a un identifant unique soit une observation par
individu.
chd une variable dichotomique prenant la valeur 1 si la maladie est présente, 0 sinon.
cat une variable dichotomique indiquant si le niveau de catecholamine est élevée (1) ou non
(0).
age une variable continue exprimée en années.
chl une variable continue définissant le taux de cholesterol.
smk une variable dichotomique indiquant si le sujet est fumeur (1) ou s’il n’a jamais fumé (0).
ecg une variable dichotomique indiquant la présence d’un électrocardiogramme anormal (1) ou
non (0).
dbp une variable continue indiquant la pression artérielle diastolique.
sbp une variable continue indiquant la pression artérielle systolique.
hpt une variable dichotomique indiquant la présence (1) ou non (0) d’une forte pression sanguine.
ch une variable construite à partir du produit cat × hpt.
cc une variable construite à partir du produit cat × chl.
Importer le jeu de données ”Evans.txt”.
Exercice 15
The data for this example come from a study by Stamey et al. (1989). They examined
the correlation between the level of prostate-specific antigen (PSA) and a number of clinical
measures in men who were about to receive a radical prostatectomy. The variables are log
cancer volume (lcavol), log prostate weight (lweight), age, log of the amount of benign prostatic
hyperplasia (lbph), seminal vesicle invasion (svi), log of capsular penetration (lcp), Gleason
score (gleason), and percent of Gleason scores 4 or 5 (pgg45).
The data for this example come from a study by Stamey et al. (1989) that examined
the correlation between the level of prostate specific antigen (PSA) and a number of clinical
measures, in 97 men who were about to receive a radical prostatectomy. The goal is to predict
the log of PSA (lpsa) from a number of measure- ments including log cancer volume (lcavol), log
prostate weight lweight, age, log of benign prostatic hyperplasia amount lbph, seminal vesicle
invasion svi, log of capsular penetration lcp, Gleason score gleason, and percent of Gleason
scores 4 or 5 pgg45.