Libérez la Performance IBM POWER

LIVRE BLANC
Libérez la Performance IBM POWER
Optimisez les systèmes IBM POWER pour vos besoins métier
Livre Blanc: Libérez la Performance IBM POWER
TABLE DES MATIÈRES
I. Sommaire... 3
II. Identification des problèmes de performance sur IBM POWER... 4
Pas ou peu de supervision temps-réel de la performance... 4
Une incapacité à résoudre les disfonctionnements rapidement... 4
Une gestion de la capacité inefficace... 4
III. L’optimisation des performances IBM POWER... 5
La supervision de la consommation des processeurs logiques... 5
La gestion de la consommation du processeur physique... 6
Eviter la saturation processeur... 7
Réduire les conflits d’accès des serveurs VIO... 9
IV. L’optimisation de la performance IBM POWER avec Sysload... 10
Les indicateurs de performance pour LPAR, WPAR et les applications... 10
Une granularité temps-réel et historique sans égal... 10
Les métriques VIOS... 11
Visibilité consolidée du data center... 11
V. En résumé... 12
Copyright @ ORSYP 2013 All Rights Reserved
2
Livre Blanc: Libérez la Performance IBM POWER
I. Sommaire
Les entreprises à la recherche de meilleures performances applicatives utilisent les technologies IBM POWER pour
garantir que leurs services critiques répondent aux exigences de robustesse et de réactivité des utilisateurs finaux.
Dans un but d’optimisation et d’exploitation de ces serveurs puissants et agiles, l’entreprise doit trouver un équilibre
entre le sous-provisionnement de ressources, avec les risques que cela implique sur la qualité de service utilisateur,
et le sur-provisionnement et ses coûts liés à la sous-utilisation de la capacité totale disponible. La technique
de virtualisation permet de répondre à ces besoins, mais présente quelques complexités dans l’allocation de
ressources.
IBM POWER utilise une technique de virtualisation, permettant de nombreuses possibilités d’allocation de ressources
physiques. Ce niveau d’abstraction peut créer des goulots d’étranglements. Savoir identifier les réserves de capacité
disponible pour absorber une surcharge applicative ainsi que détecter les sources d’erreurs sont deux des difficultés
rencontrées par les utilisateurs IBM POWER.
Même s’il existe des solutions ponctuelles pour la gestion de la performance, les systèmes IBM POWER nécessitent
une supervision constante pour garantir les SLAs. Les missions comme les tâches quotidiennes d’administration,
la gestion continue de la capacité ou l’anticipation des besoins futurs des systèmes IBM POWER peuvent s’avérer
complexes et laborieuses.
Il est possible de tirer le meilleur parti des systèmes IBM POWER, en utilisant des outils adéquats qui capturent,
analysent et présentent les informations systèmes en continu. Ces informations peuvent alors être utilisées pour
rejouer des incidents à-postériori, résoudre des problèmes et prendre les décisions nécessaires pour assurer que les
systèmes soient optimisés et répondent aux besoins courants. Les données historiques de performance peuvent quant
à elles servir à anticiper les besoins futurs en capacité.
La solution Sysload pour IBM POWER permet aux administrateurs d’obtenir davantage de résultats par rapport aux
outils d’administration systèmes natifs de ces systèmes. Sysload collecte les données avec une grande granularité
ce qui permet une gestion très fine des ressources systèmes et une supervision des performances applicatives sur
chacune des partitions physiques ou logiques.
Ce livre blanc s’attache à expliquer les challenges que rencontrent les équipes informatiques à maintenir un niveau de
performance optimal, de manière à fournir un service de qualité à leurs utilisateurs, ainsi qu’une solution rapide en cas
de panne. Ce livre blanc propose des solutions aux problèmes rencontrés visant à faciliter l’optimisation globale des
systèmes IBM POWER.
Copyright @ ORSYP 2013 All Rights Reserved
3
Livre Blanc: Libérez la Performance IBM POWER
II. Identification des problèmes de performance sur IBM POWER
Le service informatique doit s’assurer que le service proposé aux utilisateurs est opérationnel. Pour cela, la performance
des systèmes joue un rôle prépondérant. Garantir une disponibilité et un temps de réponse satisfaisant, ou encore
répondre aux besoins en ressources actuels et futurs, nécessitent une configuration optimale des environnements IBM
POWER.
D’un point de vue opérationnel, voici les difficultés rencontrées pour optimiser un système IBM POWER:
Pas ou peu de supervision temps-réel de la performance
Pour optimiser un système, les équipes de production doivent être en mesure de superviser son activité avec précision.
Une visibilité détaillée est nécessaire pour diagnostiquer des comportements inhabituels par une surconsommation
processeur, mémoire, applicative, réseau, ou bien par un comportement anormal sur un LPAR, WPAR, VIOS ou encore
sur une activité système physique. Les conséquences d’un manque de visibilité peuvent être :
• Des SLA manqués : la production informatique n’étant pas au fait en temps-réel des impacts ressentis par les
utilisateurs
• Des coûts supplémentaires liés à la supervision manuelle des systèmes par des équipes dédiées
• Des ressources mal exploitées : plusieurs applications incapables de fonctionner sur une même partition
• Une incapacité à prendre des décisions, suite aux difficultés de corrélation entre les données de performance issues de
sources physiques et virtuelles
Une incapacité à résoudre les disfonctionnements rapidement
Les incidents doivent être détectés et résolus au plus tôt pour éviter toutes répercussions sur l’activité de l’entreprise.
Pour cela, la production informatique doit être en mesure d’analyser et de comprendre un problème pour rapidement
en identifier la cause et fournir une solution. Voici certaines difficultés rencontrées:
• L’absence d’outils de diagnostics de pannes ou de comportements inhabituels
• Des informations limitées, ne permettant pas une réelle analyse d’un problème
• Peu de visibilité sur les applications, les serveurs et autres ressources lors des phases de diagnostic
• Aucun mécanisme pour rejouer ou reproduire des problèmes, qui facilite les efforts d’analyses et de résolutions
Une gestion de la capacité inefficace
IUne mauvaise configuration des partitions et processeurs logiques se traduit par une exploitation de l’environnement
IBM inefficace. Le service informatique doit éviter de gaspiller des ressources processeurs, tout en gardant une marge
de manœuvre pour livrer une capacité supplémentaire quand le métier le demande. Pour pouvoir répondre à ce double
objectif de réduction des gaspillages et de livraison de nouveaux services, l’IT doit posséder un historique détaillé de
ces données, de manière à améliorer l’allocation de ressources courantes, tout en prévoyant au plus juste les besoins
de demain. Ainsi, les problèmes liés à une mauvaise gestion de la capacité sont les suivants:
• Des ralentissements et dégradations de services liés à des architectures ou des configurations déficientes ou à des
charges trop élevées
• Des volumes importants de traitements soumis durant des périodes d’activité élevée (fin de mois), ayant un impact
fort sur les temps de réponses
• Des perturbations et des incidents, causés par des ressources surchargées (processeurs saturés ou fuites
mémoire)
• Des problèmes d’alignement de ressources processeurs avec les applications et besoins métiers (par exemple,
problèmes de gestion et d’occupation mémoire)
• Une impossibilité de définir clairement les besoins de capacité actuels et futurs
Copyright @ ORSYP 2013 All Rights Reserved
4
Livre Blanc: Libérez la Performance IBM POWER
Il est donc primordial de trouver des solutions à ces difficultés si l’on souhaite optimiser son parc IBM POWER.
Heureusement, il existe des outils permettant de répondre à ces besoins, nous en parlerons dans la section IV de ce
document.
III. L’optimisation des performances IBM POWER
La supervision continue des différents composants de l’environnement virtuel, une réponse immédiate à tout
comportement anormal et une gestion efficace de la capacité du système sont les clés pour exploiter au maximum le
potentiel d’IBM POWER.. Les éléments à superviser en priorité sont la consommation des processeurs physiques et
logiques, ainsi que l’activité dans la partition VIOS.
La supervision de la consommation des processeurs logiques
En utilisant des métriques standards, la supervision des processeurs logiques dans un LPAR AIX est similaire à la
supervision sur un système physique traditionnel:
•
%user : pourcentage de temps CPU alloué au code utilisateur (applications)
•
%sys : pourcentage de temps CPU alloué au code système (noyau)
•
%wait : pourcentage de temps CPU pris par les exécutions des entrées/sorties
•
%idle : pourcentage de temps CPU non-utilisé
•
lbusy : taux de consommation des processeurs logiques
Il est néanmoins important de noter que les quatre premiers indicateurs donnent une information qui reste relative
à l’entitled capacity de la partition et non pas à l’ensemble de la machine. Ceci peut effectivement présenter une
difficulté de lecture et d’interprétation dans le cas où l’on change la capacité ou si la partition est en mode noncapé.
Prenons par exemple une partition avec un entitled capacity de 0,5 et pour laquelle on constate une activité des
processeurs logiques en mode utilisateur (%user) de 50%. Si la partition est capée, on peut raisonnablement penser
que la capacité physique consommée en mode user est de l’ordre de 0,5*50% soit 0,25. En revanche, si la partition
n’est pas capée, il n’est pas possible d’estimer correctement la capacité consommée à la seule lecture des indicateurs
d’utilisation des processeurs logiques.
Exemple : Plusieurs éléments CPU consomment de la puissance cpu dans une LPAR
Copyright @ ORSYP 2013 All Rights Reserved
5
Livre Blanc: Libérez la Performance IBM POWER
La métrique lbusy mesure le taux de consommation du processeur logique et donc, implicitement, le taux de
consommation du processeur virtuel dans une LPAR.
A titre d’exemple, une LPAR dotée de deux processeurs logiques présentera un lbusy d’environ 50% si l’on y exécute
un programme de charge mono-threaded. Si l’on exécute deux instances de ce même programme, le taux lbusy
présentera une valeur proche de 100%.
Un taux lbusy proche de 100% correspond à une complète exploitation des possibilités SMP ou SMT de
la partition logique. Dans cette situation, l’ajout de processeurs virtuels complémentaires peut encore
améliorer les performances de l’exécution des programmes. Un taux lbusy faible met en lumière
l’incapacité des applications à exploiter le parallélisme SMP ou SMT, dans ce cas il est possible et même
recommandé de réduire le nombre de processeurs virtuels.
La gestion de la consommation du processeur physique
La supervision des processeurs physiques sur des systèmes IBM POWER peut être réalisée dans chaque LPAR, en
utilisant des métriques spécifiques :
• physc : volume d’unités de traitement utilisé par la partition logique (en centièmes d’unité)
• ent : volume d’unités de traitement alloué à la partition logique (capacité entitled en centièmes d’unité)
• pool size : volume d’unités de traitement dans le pool partagé auquel la partition logique est attachée
Dans le cas d’une partition non-capée, on pourra constater que la quantité de processing units consommée (physc)
peut être supérieure à l’entitled capacity de la partition (ent). Par contre, cette consommation reste toujours inférieure
à la capacité du shared pool (pool size).
Exemple : La consommation du processeur physique LPAR peut dépasser
la capacité entitled quand la partition est non capée
Copyright @ ORSYP 2013 All Rights Reserved
6
Livre Blanc: Libérez la Performance IBM POWER
La consommation du processeur physique par les partitions logiques peut par ailleurs être représentée en tant que
ratio, à l’aide des métriques suivantes :
• %app : pourcentage d’unités de traitement inutilisées et disponibles dans le pool partagé, rapporté à la capacité du
pool partagé (pool size)
• entc : pourcentage d’unités de traitement utilisées par une LPAR, rapporté à la capacité entitled
Il est important de noter que ces deux indicateurs sont déterminés relativement à des quantités différentes
(capacité du shared pool dans un cas et entitled capacity dans l’autre). Leur évolution n’est donc pas directement
proportionnelle.
Le taux d’utilisation (entc) peut ainsi dépasser 100% dans le cas d’une partition non-capée utilisant une capacité
supérieure à son entitled capacity.
Exemple : l’utilisation LPAR doit être représentée en termes d’unités processeur physique
L’obligation de doter une micro-partition d’un nombre minimal de processeurs virtuels en cohérence avec sa capacité
maximum pose néanmoins un problème pour les partitions uncapped car la capacité maximum de la partition n’est
pas connue à l’avance. Le nombre de processeurs virtuels doit être supérieur à la capacité entitled d’une partition non
capée, même si la capacité supplémentaire n’est requise que pour un temps très limité. Les administrateurs doivent
être précis lorsqu’ils définissent la valeur de ce paramètre. La supervision de l’activité de la partition peut aider à
déterminer le nombre de processeurs virtuels exploités. Sur le long terme, la fonction folding des processeurs virtuels
peut être utilisée pour mettre les processeurs inactifs hors ligne.
Eviter la saturation processeur
L’utilisation simultanée de plusieurs systèmes d’exploitation sur un même serveur physique augmente les risques de
conflits d’accès aux ressources et, en particulier, de saturation processeur.
Sur un serveur physique, la saturation processeur peut être définie comme une augmentation du nombre de processus
applicatifs en attente d’exécution par manque de cycles d’exécution disponibles. Les niveaux de saturation dépendent
donc du nombre de processeurs actifs (ou threads) et le nombre de cycles d’exécution à distribuer. Les applications
et utilisateurs liés à des processus en manque de ressources processeurs voient leur temps de réponse augmenter,
proportionnellement à la taille de la file d’exécution (ou de la file d’attente).
Copyright @ ORSYP 2013 All Rights Reserved
7
Livre Blanc: Libérez la Performance IBM POWER
Lorsque le nombre de processus dans la file d’exécution est plus élevé que le nombre de
processeurs logiques alloués à la partition, le système peut être à cours de cycles d’exécution.
Cela crée des situations de conflit d’accès au niveau des requêtes applicatives, provoquant des
ralentissements pour l’utilisateur final.
Ainsi, la saturation peut être mesurée sur les partitions logiques de la même manière que sur les serveurs physiques,
en utilisant les métriques spécifiques au nombre de processus en attente sur une ressource processeur (longueur de la
file d’exécution ou charge moyenne).
Il est donc important de vérifier les taux d’utilisation - %user, %sys et %wait - pour s’assurer que les conflits ne sont
pas dus à des problèmes d’I/O, identifiés grâce à la formule %wait > %user + %sys.
Il est très simple d’allouer une quantité de cycles d’exécution complémentaires en augmentant
l’entitled capacity et du nombre de processeurs virtuels de la partition. Dans le cas de partition
non capées la surpondération de la partition, en modifiant son poids (weight) peut aussi réduire la
saturation processeur en lui attribuant prioritairement des cycles d’exécution.
Dans le cas d’un serveur physique, un problème de conflit d’accès à un processeur impose en général une mise à jour
ou même des coûts matériels. Avec un serveur virtualisé, il est plus facile de résoudre des problèmes de conflit d’accès
au processeur d’une partition logique dans la mesure où la saturation peut être évitée en reconfigurant simplement les
paramètres de la partition.
Exemple : Une file d’attente processeur saturée pendant des heures prend
une heure pour revenir à un statut normal
Copyright @ ORSYP 2013 All Rights Reserved
8
Livre Blanc: Libérez la Performance IBM POWER
Réduire les conflits d’accès des serveurs VIO
Le serveur VIOS est un composant essentiel pour beaucoup d’entreprises déployant des systèmes IBM. Cette
technologie offre des niveaux de souplesse et de disponibilité élevés, ainsi que la possibilité de partager des ressources
I/O. Dans la mesure où ce serveur est responsable des activités réseaux et d’I/O pour les autres partitions, il est
impératif que le VIOS soit configuré de façon optimale. Un paramètre mal configuré peut affaiblir de façon considérable
la performance de ce service, avec des risques de saturation des ressources physiques. Le VIOS doit impérativement
être correctement configuré pour répondre à tous les besoins de l’entreprise, aussi bien actuels que futurs.
Même si la virtualisation des adaptateurs permet d’optimiser l’exploitation de la bande passante en consolidant
les échanges réseau de plusieurs LPARs sur un nombre restreint d’adaptateurs physiques, l’utilisation d’une même
interface pour un grand nombre de partitions clientes VIOS peut provoquer des conflits d’accès aux ressources. La
supervision de la performance des adaptateurs réseaux virtuels sur le serveur VIO est donc critique.
La pratique de mapping des volumes logiques (Logical Volume ou LV) permet de réduire le nombre de disques alloués
à un serveur VIO. Néanmoins, des conflits d’accès peuvent se produire si plusieurs LPARs clientes VIOS tentent
d’accéder simultanément à des LV sur le serveur VIO. Une supervision vigilante est encore une fois nécessaire pour
empêcher les ralentissements lorsque les partitions clientes VIOS émettent des requêtes I/O sur le même disque
physique.
Le VIOS peut par ailleurs être utilisé pour servir directement des requêtes I/O émises par les partitions clientes.
Dans ce cas, le VIOS n’a aucune visibilité sur la structure ou sur le mode d’utilisation des disques, et se contente
de router les requêtes I/O. La cartographie de ce type de configuration peut devenir complexe lorsque le nombre
de disque est grand. C’est particulièrement pénalisant quand on cherche à identifier la source d’une dégradation de
performance.
L’exécution des tâches d’administration que nous venons de décrire et, plus généralement, la prise en main des
problèmes liés à la performance, exigent une analyse détaillée complexe, même si elle est théoriquement faisable
avec des calculs manuels. Non seulement le travail requis est laborieux, mais il nécessite également une supervision
constante et des ajustements continuels. Il existe quelques outils livrés en standard pour faciliter ce type d’analyse,
mais leur valeur reste limitée : ils ne proposent pas les métriques ni la granularité indispensables à ce genre
d’activité.
Devant la difficulté de prendre en charge la gestion de la capacité, les équipes informatiques finissent par mettre en
place des procédures manuelles ou des copier/coller dans des feuilles de calcul, méthode d’évaluation très limitée pour
apprécier les besoins futurs.
Comme nous l’avons montré, ces procédures manuelles ont pour effet de limiter les bénéfices proposés par IBM
POWER. Une exploitation optimale de la puissance proposée n’est possible qu’avec des niveaux de supervision, tout
simplement irréalisables avec des processus manuels. Une solution de gestion de performance et de capacité globale,
intégrée et automatisée, devient donc nécessaire pour obtenir le maximum d’un environnement IBM POWER.
Copyright @ ORSYP 2013 All Rights Reserved
9
Livre Blanc: Libérez la Performance IBM POWER
IV. L’optimisation de la performance IBM POWER avec Sysload
Sysload pour IBM POWER d’ORSYP, est une solution de supervision automatisée qui garantit les meilleurs niveaux
de performance dans un environnement virtualisé. Cet outil complet permet un service optimal aux utilisateurs, une
résolution rapide des incidents et un contrôle total sur les besoins capacitaires actuels et futurs.
Sysload représente la solution idéale pour la gestion de performance en proposant des fonctions de suivi de
performance, de supervision des ressources et de surveillance de l’utilisation des ressources sur les machines
physiques et dans chacune des partitions.
Sysload affiche le statut du serveur en parallèle des événements et de l’exploitation ressource
Les indicateurs de performance pour LPAR, WPAR et les applications
Les données de performance pour les LPAR, WPAR et les processus individuels permettent aux administrateurs
systèmes de réaliser des gains de temps considérables dans l’identification des points de ralentissement sur les
systèmes.
Une granularité temps-réel et historique sans égal
Sysload permet de collecter jusqu’à 300 métriques par système, avec des intervalles de temps très courts, de l’ordre
de la seconde pour les informations CPU. L’historique court terme permet de stocker des données temps-réel sur
plusieurs jours. L’historique long terme est conservé sur plusieurs années, avec une granularité de 5 minutes. Ce
niveau de granularité permet une supervision très précise de l’utilisation et facilite l’identification des sources de
disfonctionnements causées par la micro-saturation des partitions logiques. Ces problèmes ne sont d’ailleurs jamais
détectés par la plupart des outils de supervision.
Pour garantir un niveau de visibilité LPAR et applicative en adéquation avec la technologie IBM POWER, Sysload
propose des métriques spécifiques à AIX comme ent, entc, physc, lbusy, app, comp, noncomp, minperm, maxperm,
pages volées et empruntées.
Copyright @ ORSYP 2013 All Rights Reserved
10
Livre Blanc: Libérez la Performance IBM POWER
Les métriques VIOS
Avec la certification d’IBM “VIOS recognized”, Sysload gère la capacité au niveau VIOS, ce qui permet la supervision
de la performance globale des I/O disques et réseaux. Non seulement Sysload collecte les valeurs CPU et RAM
(standards sur UNIX) dans cette LPAR, mais il collecte aussi les métriques spécifiques au contrôleur d’I/O. Sysload
pour VIOS permet d’identifier les niveaux de capacité et d’utilisation des adaptateurs réseaux et disques (physiques et
virtuels), la consommation CPU et l’utilisation générale faite du serveur VIO. Il permet enfin de résoudre les problèmes
de performance applicative.
Visibilité temps-réel de la performance du serveur VIO en mappant l’exploitation
des ressources CPU et I/O avec Sysload
Visibilité consolidée du data center
En plus de la supervision des LPARs, Sysload propose une visibilité totale sur les châssis physiques, apportant toutes
les informations nécessaires pour gérer la capacité et l’utilisation courante des systèmes IBM POWER. Cette visibilité
s’applique à l’intégralité du data center grâce au nombre important de plateformes supportées par Sysload telles que
AIX, IBMi, Linux (POWER et x86) et VMWare.
Sysload informe sur l’occupation et la capacité des trames physiques IBM POWER
Copyright @ ORSYP 2013 All Rights Reserved
11
Livre Blanc: Libérez la Performance IBM POWER
V. En résumé
L’implémentation d’un système IBM POWER représente un investissement financier important pour toute entreprise.
L’optimisation de ces systèmes est donc capital pour récolter les bénéfices de toute la puissance IBM POWER
comme:
• La réduction des coûts opérationnels, dans la mesure où le personnel IT passe moins de temps à faire de
l’analyse de performance et à résoudre des disfonctionnements dans l’urgence
• Des économies sur le matériel et les frais généraux d’infrastructure (électricité, locaux, licences
logicielles)
• L’élimination des pénalités financières liées aux SLA manqués et à des niveaux de qualité insuffisants
• Une visibilité totale sur l’exploitation des systèmes, permettant la mise à disposition de rapports détaillés
sur la performance des services livrés aux équipes
• L’alignement de l’infrastructure sur les besoins métier - la mise en adéquation des systèmes POWER avec
les attentes des utilisateurs
Ces bénéfices sont réalisables. Pourtant, comme nous l’avons expliqué, une exploitation optimisée des serveurs est
difficile avec les outils traditionnels ou avec des procédures manuelles.
L’optimisation de la performance d’IBM POWER et les bénéfices qui en découlent nécessitent une solution de
supervision automatisée comme Sysload d’ORSYP. Cette optimisation n’est réalisable qu’avec une collecte de données
régulière et granulaire. Ces données permettent au service informatique de superviser les niveaux de performance
actuels et passés de manière à répondre aux besoins utilisateurs, mais également, de produire les analyses nécessaires
à une prise de décision.
Copyright @ ORSYP 2013 All Rights Reserved
12
www.orsyp.fr
@orsypfr
A propos d’ORSYP
ORSYP, spécialiste du Management des Opérations Informatiques depuis 1986, propose à ses clients des solutions
permettant d’augmenter la valeur de leurs services par la maîtrise des processus informatique au travers de ses offres
logicielles d’automatisation et Capacity Management ainsi que de Conseil et Formation en Management du SI.
En croissance continue depuis sa création, ORSYP possède ses bureaux principaux à Paris, Boston et Hong Kong. Le
groupe est présent dans 12 pays et possède plus de 1.500 clients dans le monde.
Siège Amérique du Nord
Siège Asie Pacifique
Siège Europe
300 TradeCenter 128
Suite 5690
Woburn, MA 01801
USA
+1 781 569 5730
Honest Motors Building
9-11 Leighton Road
Causeway Bay
Hong Kong, China
+852 2575 5966
Tour Franklin
92042 Paris La Défense
Cedex
France
+33 [0]1 47 73 12 12
12192013