Université d’Evry-Val d’Essonne M1 Maths Statistiques Appliquées SAS 2011-2012 TP 1 : initiation au logiciel SAS : manipulation, création et importation de données Exercice 1 1. création de données 2. manipulation de données 3. format des données Exercice 2 1. importation de jeu de données à partir de fichiers .txt 2. impression des données Exercice 3 1. création de libraire avec les données Exercice 4 1. importation de données 2. manipulation de données Exercice 5 Un agronome cherche à étudier la relation entre le taux de DDT d’un brochet et l’âge du brochet. Il dispose pour cela d’un échantillon de n = 15 brochets pour lesquels on a son âge x et la mesure de son taux de DDT y. âge Taux de DDT âge Taux de DDT 2 2 2 3 3 3 4 4 4 0,20 0,25 0,18 0,19 0,29 0,28 0,31 0,33 0,36 5 5 5 6 6 6 0,71 0,38 0,47 1,10 0,87 0,83 Les données sont présentées dans le fichier ”brochet.txt”. Importer le jeu de données ”brochet.txt”. Exercice 6 Un fortifiant F est essayé sur 30 rats. 10 rats sont élevés sans fortifiant et on répartit les autres en 4 groupes de 5 rats chacun : 5 rats recoivent 1 mg de F , 5 autres 2 mg de F , 5 autres 3 mg de F , et les 5 derniers, 4 mg de F . On mesure le poids de chaque rat après 2 mois de traitement. On obtient les résultats suivants : Dose de Fortifiant F Poids 0 84,9 106,1 114,8 109,2 112,0 1 82,9 114,3 99,6 107,4 98,2 124,9 84,3 98,9 118,0 124,3 2 128,8 112,8 114,0 118,2 119,5 3 125,5 122,6 114,1 109,3 102,2 4 129,1 121,3 116,6 101,8 130,3 Créer le jeu de données correspondant avec SAS. L’exporter dans un fichier ”rat.txt”. Exercice 7 Un forestier s’intéresse aux hauteurs moyennes de trois forêts. Pour les estimer, il échantillonne un certain nombre d’arbres et mesure leurs hauteurs. On souhaite tester si la hauteur moyenne des arbres est la même dans les 3 forêts. Les données se trouvent dans le fichier ”foret3.txt”. Importer le jeu de données. Exercice 8 On souhaite étudier la variation du taux d’hémoglobine dans le sang Y au cours d’une opération chirurgicale en fonction de la durée de l’opération D et du volume de sang perdu pendant l’opération V . L’objet de l’étude est d’expliquer par un modèle linéaire la variable Y en fonction des deux variables explicatives D et Z. On dispose des résultats suivants où yi représente la valeur observée en pourcentage de la variation du taux d’hémoglobine, di est la durée de l’opération en heures décimales et vi est le volume en litres de sang perdu. yi di vi -1.70 1.75 0.52 -4.61 1.33 0.59 -5.82 1.43 0.61 -1.17 1.86 0.50 -4.23 1.81 0.54 -3.31 +0.42 1.66 1.60 0.49 0.27 -2.98 2.00 0.47 Créer le jeu de données correspondant et l’exporter dans un fichier ”hemoglobine.txt”. Exercice 9 Considérons un gène bi-allélique d’allèles B et b, dont on soupçonne qu’il module la concentration sanguine d’une certaine protéine. On a recruté une centaine d’individus, on les a génotypés pour le gène considéré et on a mesuré la concentration sanguine chez chacun d’eux. Les résultats sont les suivants : Génotype BB Génotype Bb Génotype 4,34 5,63 5,36 4,41 5,76 4,34 5,50 5,81 7,16 5,25 2,27 5,23 4,00 4,01 3,86 3,87 5,04 5,31 4,51 5,00 4,85 6,57 5,22 4,61 6,78 4,09 6,91 3,62 3,67 5,42 3,92 5,47 5,82 4,88 4,38 7,21 5,01 5,21 5,80 6,16 5,44 5,82 3,74 6,47 4,60 4,89 4,93 7,27 2,29 6,22 5,51 4,14 7,47 2,76 4,24 4,93 6,19 4,83 6,89 4,90 3,33 4,36 6,77 5,41 4,09 5,64 4,15 6,16 3,97 5,39 4,02 5,47 6,67 5,10 6,09 5,00 4,98 4,42 3,23 4,71 5,12 Créer le jeu de données SAS correspondant et l’exporter dans un fichier ”gene.txt”. bb 5,48 5,16 4,69 1,40 4,23 3,86 5,15 3,14 4,36 5,38 Exercice 10 Une étude de 1986, dans le Massachusetts (USA) cherche à analyser les facteurs de risque au cours de la grossesse d’accoucher d’un bébé de "faible poids", c’est-à-dire de poids inférieur à 2500 g. Pour chaque femme, on dispose des informations suivantes. - id : identifiant - age : age de mère en années - lwt : poids de la mère juste avant la grossesse - race : race de la mère (1 = blanche, 2 = noire, 3 = autre) - smoke : indicateur fumeuse/non fumeuse (1=oui, 0=non) - ptl : Nombre d’alertes d’accouchement prématuré - ht : indicateur d’hypertension pendant la grossesse (1=oui, 0=non) 5,79 5,90 2,55 6,81 6,31 4,47 3,39 5,63 6,95 - ui : indicateur d’irritabilité utérine (1=oui, 0=non) - ftv : nombre de visites médicales durant le premier trimestre - bwt : poids de naissance du bébé en grammes - low : indicateur de bébé de faible poids avec low=1 si bwt< 2500g et 0 sinon. Importer le jeu de données ”lowbwt.txt”. Exercice 11 Lorsqu’un forestier évalue la vigeur d’une forêt, il considère souvent la haureur des arbres qui la compose. Plus les arbres sont hauts, plus la forêt ou la plantation produit. Si l’on cherche à quantifier la production par le volume de bois il est nécéssaire d’avoir la hauteur de l’arbre pour calculer le volume du bois grâce à une formule du type ”tronc-cône”. Cependant la mesure de la hauteur d’un arbre d’une vingtaine de mètres n’est pas aisée. Il est alors nécessaire d’estimer la hauteur grâce à une mesure simple, la mesure de la circonférence à 1 mètre 30 du sol. Les données sont consituées de n = 1429 mesures couples circonférences-hauteur, mesures obtenues sur une parcelle d’eucalyptus agés de 6 ans (age de rotation avant la coupe). Ces données sont dans un fichier eucalyptus.txt. Nous souhaitons donc trouver la relation qui lie la circonférence à la hauteur de façon à prédire la hauteur d’un arbre à partir de sa circonférence. Importer le jeu de données sous SAS. Exercice 12 Chez des patients ayant des problèmes cardiaques, on a mesuré la vitesse de circulation du sang (par effet Doppler) Y dans les artères coronaires. On cherche à étudier l’effet de deux variables quantitatives sur cette vitesse, à savoir le taux de choléstérol T et le poids P . On dispose des données suivantes : pour chaque patient i, i = 1, · · · , 20 on mesure son poids pi , son taux de choléstérol ti , et sa vitesse de circulation sanguine yi . pi 45 48 50 50 52 53 56 ti 2.7 2.0 1.8 2.2 1.7 2.5 2.8 yi 75.09 77.41 77.88 76.52 77.00 72.09 71.96 pi 58 63 66 66 69 72 74 ti 2.1 1.8 2.4 2.9 2.0 2.6 1.7 yi 72.42 69.63 70.60 68.62 68.53 67.88 66.28 pi 79 79 84 89 90 98 ti 3.0 1.9 2.1 1.8 2.5 2.9 yi 64.22 66.34 62.34 61.06 59.68 55.81 Créer le jeu de données correspondant et l’exporter dans un fichier ”doppler.txt”. Exercice 13 On compare l’effet de trois traitements contre le paludisme, en mesurant le temps de clairance parasitaire chez des patients symptomatiques, répartis de façon aléatoire en trois groupes. Les résultats sont les suivants (en heures) : Traitement 1 33 55 96 75 22 68 78 65 54 41 48 65 Traitement 2 Traitement 3 49 73 62 90 62 71 88 119 60 92 51 94 107 67 40 92 112 65 85 95 Créer le jeu de données correspondant. Exercice 14 Ce jeu données contient les informations sur une cohorte de 609 hommes ayant été suivis sur une période de 7 ans. Il s’agit d’étudier la variable d’intérêt "apparition ou non d’une maladie cardiaque des coronaires”. Les variables sont définies ci-dessous : id identifant du sujet. Chaque observation a un identifant unique soit une observation par individu. chd une variable dichotomique prenant la valeur 1 si la maladie est présente, 0 sinon. cat une variable dichotomique indiquant si le niveau de catecholamine est élevée (1) ou non (0). age une variable continue exprimée en années. chl une variable continue définissant le taux de cholesterol. smk une variable dichotomique indiquant si le sujet est fumeur (1) ou s’il n’a jamais fumé (0). ecg une variable dichotomique indiquant la présence d’un électrocardiogramme anormal (1) ou non (0). dbp une variable continue indiquant la pression artérielle diastolique. sbp une variable continue indiquant la pression artérielle systolique. hpt une variable dichotomique indiquant la présence (1) ou non (0) d’une forte pression sanguine. ch une variable construite à partir du produit cat × hpt. cc une variable construite à partir du produit cat × chl. Importer le jeu de données ”Evans.txt”. Exercice 15 The data for this example come from a study by Stamey et al. (1989). They examined the correlation between the level of prostate-specific antigen (PSA) and a number of clinical measures in men who were about to receive a radical prostatectomy. The variables are log cancer volume (lcavol), log prostate weight (lweight), age, log of the amount of benign prostatic hyperplasia (lbph), seminal vesicle invasion (svi), log of capsular penetration (lcp), Gleason score (gleason), and percent of Gleason scores 4 or 5 (pgg45). The data for this example come from a study by Stamey et al. (1989) that examined the correlation between the level of prostate specific antigen (PSA) and a number of clinical measures, in 97 men who were about to receive a radical prostatectomy. The goal is to predict the log of PSA (lpsa) from a number of measure- ments including log cancer volume (lcavol), log prostate weight lweight, age, log of benign prostatic hyperplasia amount lbph, seminal vesicle invasion svi, log of capsular penetration lcp, Gleason score gleason, and percent of Gleason scores 4 or 5 pgg45.
© Copyright 2025 ExpyDoc