Ga naar het hele artikel

Artikel
Is het een bevlieging? Fictie of een Feit?
Grid computing
Wijnand Wellink
Grid computing is een term die al ruim acht jaar wordt
gebruikt. In die acht jaar is het concept gedevalueerd
van the “Next Big Thing”, naar een “hype” en uiteindelijke is het afgeschreven (1, Gartner, 2006).
D
e vraag rijst waarom het interessant is nog over grid
computing te schrijven. Een reden zou kunnen zijn
dat nieuwe technologieën die in grid omgevingen worden
toegepast, sterk aan het opkomen zijn. Hierbij kan bijvoorbeeld worden gedacht aan Service Oriented Architectures
(SOA’s), de nauw daaraan gerelateerde Web services en
onbeperkte bandbreedte door de beschikbaarheid van glasvezel Internet verbindingen. Een ander belangrijk argument
is het vertrouwen dat ontwikkelaars, academici en het
bedrijfsleven hebben in de toekomst van grid computing.
Zonder grid is het bijvoorbeeld niet mogelijk om een
2 Gbyte email dienst van Google Inc. (Gmail.com) te
hebben voor miljoenen gebruikers en al helemaal niet
Google (2, Brin/page 1998).
Vooral IT Auditors zullen in de toekomst grid systemen
tegenkomen in hun werk. Naast toepassingen in de academische wereld en medische wereld (waarover later meer)
worden computer en data grids steeds vaker toegepast in
reguliere gegevensverwerkende omgevingen.
Dit artikel is een samenvatting van het referaat dat door Wijnand Wellink is geschreven
in het kader van zijn afstudeeronderzoek
voor de opleiding EDP Auditing aan de
Erasmus Universiteit van Rotterdam in 2006.
Ing. W.S. (Wijnand) Wellink
RE is werkzaam als Senior
IT-auditor bij Ernst & Young
Wat is grid computing?
Omdat grid een opkomende technologie is, is er op dit
moment nog geen eenduidige definitie voorhanden. In paragraaf 2.2 wordt een aanzet gedaan om een definitie voor
grid computing verder uit te werken. Vooralsnog hanteren
we de volgende definitie: ‘grid computing maakt het mogelijk om een groep van servers, opslag capaciteit en netwerken
te koppelen waardoor deze voor een gebruiker als één
systeem voor een bepaald doel beschikbaar komt. Voor de
gebruiker komt dit geheel met applicaties, bestanden en
rekencapaciteit over als een virtuele omgeving’.
Eén van de doelen van grid is het virtualiseren van resources
om rekencapaciteitsproblemen op te lossen. De belangrijkste
resources kunnen zijn:
• Rekencapaciteit/processor capaciteit;
• Data opslag/database systemen;
• Communicatie en bandbreedte;
• Applicatie software.
in Melbourne, Australië.
De samenvatting is mede
tot stand gekomen door de
samenwerking tussen
Wijnand Wellink en drs. W. T
(Tobias) Houwert RE
(Projectmanager EDP Audit
Ernst & Young Nederland).
Tijdens het bestuderen van de literatuur, werd het duidelijk
dat – naast verschillende ideeën of definities – er andere
termen zijn die verband houden met grid computing De
volgende termen lijken over grid computing te gaan maar
zijn het niet:
• Clusters;
• Super computers;
34 | de EDP-Auditor nummer 3 | 2007
• Network-attached storage divces (NAS);
• Storage Area Networks (SAN).
Dit betekent echter niet dat deze geen rol kunnen spelen in
grid computing. In tegendeel, voor een groot aantal voorbeelden, waarvan er een aantal later in dit artikel worden
besproken, zien we dat clusters een belangrijk onderdeel van
grid compting vormen.
Centrale vraagstelling
Dit onderzoek geeft een antwoord op de volgende drie
onderzoeksvragen:
• Wat is grid computing en hoe heeft het zich ontwikkeld?
• Welke praktische oplossingen/voorbeelden van grid computing zijn er?
• Welke impact zal grid computing hebben op het gebied
van IT-audit?
De antwoorden op deze vragen zijn te vinden in de hierna
volgende paragrafen. De eerste beschrijft op basis van
literatuurstudie wat grid computing is en hoe het zich heeft
ontwikkeld. In de daarop volgende paragraaf worden voorbeelden uit de wereld van grid computing besproken. Het
doel van paragraaf drie is een overzicht te geven hoe grid
technologie wordt toegepast in de wetenschap, natuurwetenschappen en bij banken. De volgende paragraaf gaat in
op hoe assurance kan worden verkregen (door security en
audit) in een grid omgeving. De laatste paragraaf geeft ten
slotte een eindconclusie.
Figuur 1 geeft weer hoe het gebruik van computers zich
heeft ontwikkeld in een periode van tien jaar. Het is interessant om te zien dat de tweede generatie project georganiseerd was terwijl de derde generatie het beste van de tweede
generatie heeft overgenomen en het verder heeft ontwikkeld
en gestandaardiseerd. Een voorbeeld hiervan is het OGSI
(Open Grid Security Infrastructure) en Web Services.
Een definitie van grid computing
De beweegredenen en doelen voor grids is hiervoor aan de
orde gekomen. Toch bestaat er geen duidelijke definitie
voor grid systemen. De term ‘grid computing’ ontstond
naar analogie van elektrische power grid, dat makkelijk toegankelijk is via standaard interfaces. Elektrische power grids
maken het mogelijk om verschillende energie-opwekkers
vlot te laten delen door verschillende stroomproducten (5,
Foster, 2003). Verschillende voorstanders hebben grid gedefinieerd als: ‘flexible, secure, coordinated resource sharing
among dynamic collections of individuals, institutions, and
resources’, ‘a single seamless computational environment in
which cycles, communication, and data are shared, and in
which the workstation across the continent is no less than one
down the hall’, ‘a wide area environment that transparently
consists of workstations, personal computers, graphic rendering
engines, supercomputers and non-traditional devices: e.g., TVs,
toasters, etc.’ (6, Nemeth, 2003).
In 1999 publiceerden Ian Foster en Carl Kesselman hun veel
geciteerde ‘blauwdrukboek’ (4, Foster 1999). In dit boek –
dat geldt als een blauwdruk voor grid computing – definiëren zij grid computing als volgt:
Wat is grid computing?
Geschiedenis van grid computing
Een belangrijke visie uit het jaar 1969 was die van Kleinrock
(3, Kleinrok 1969) die sprak over ‘computing as a utility’
(rekencapaciteit als een gebruiksvoorwerp). Het artikel stelt
dat het gebruik van computer toepassingen – net zoals in die
tijd de telefoon en bijvoorbeeld de wasmachine – zal worden
gebruikt als een gebruiksvoorwerp bij mensen thuis en in
bedrijven.
Joseph en Fellenstein (6, Joseph and Fellenstein 2003)
beschrijven de ontwikkeling van Grids in drie generaties. In
figuur 1 zijn deze weergegeven, inclusief de onderdelen die
de generatie karakteriseren.
=beXki
<7<D;H
?#M7O
E=I7
B[]_ed
F(F
@?D?
D_cheZ
KD?9EH;
7kjedec_Y
I[cWdj_Y
=h_Z
E=I?
Ed#:[cWdZ
M[X
I[hl_Y[i
<_hij=[d[hWj_ed
'//&
I[YedZ=[d[hWj_ed
'//.
J^_hZ=[d[hWj_ed
(&&(
‘…A computational grid is a hardware and software infrastructure that provides dependable, consistent, pervasive and
inexpensive access to high-end computational capability...’
Het moet gezegd worden dat deze definitie met name
gebaseerd is op computing grids. Naast computing grids zijn
er tal van andere vormen. Deze kunnen verdeeld worden
in:
• Data grid. Deze vorm van grid maakt het voor gebruikers
mogelijk om grote hoeveelheden data op te slaan in een
(ogenschijnlijke) homogene omgeving. Een goed artikel
over data grids is geschreven door Anthony Finkelstein e.a
(7, Finkelstein e.a, 2004). Finkelstein c.s. beschrijven verschillende voorbeelden van data grids en de daarbij behorende architecturen.
• Kennis grid. Alhoewel dit concept zich nog in een pril
stadium bevindt, maken kennis grids grote hoeveelheden
kennis en informatie beschikbaar en doorzoekbaar. In
deze grids kunnen bijvoorbeeld simulaties gedraaid
worden voor complexe bedrijfsprocessen. De definitie
van een kennis grid is (8, Zhuge 2004):
‘The Knowledge Grid is an intelligent, sustainable Internet
application environment that enables people or virtual roles
35 | de EDP-Auditor nummer 3 | 2007
(mechanisms that facilitate interoperation among users,
applications, and resources) to effectively capture, publish,
share, and manage explicit knowledge resources. It also provides on-demand services to support innovation, cooperative
teamwork, problem solving, and decision making. It incorporates epistemology and ontology to reflect human cognition
characteristics; exploits social, ecological, and economic principles; and adopts the techniques and standards developed
during work toward the next-generation Web.’
• Service grid. Dit concept levert rekencapaciteit als een service aan de eindgebruiker. Termen zoals ‘utility computing’ en ‘on demand computing’ zijn vormen van service
grids.
• Desktop grids. Bij dit concept wordt de rekencapaciteit
van een computer (laptop, desktop, pc etc.), die wel aan
staat maar niet gebruik wordt, ingezet om berekeningen
uit te voeren. Een goed voorbeeld (dat ook een voorbeeld
is van computing grids) is het SETI@Home project van de
Berkley universiteit.
Gezien deze afgeleidde termen kan de hierboven beschreven
definitie niet meer stand houden. De voorgaande definitie is
dan ook nader uitgewerkt in het artikel ‘The Autonomy of
the Grid’ (9, Foster 2001) dat werd geschreven door Ian
Foster en Steve Tuecke.
Deze exercitie resulteerde in de volgende definitie:
‘…The sharing that we are concerned with is not primarily file
exchange but rather direct access to computers, software, data,
and other resources, as is required by a range of collaborative
problem solving and resource-brokering strategies emerging in
industry, science, and engineering. This sharing is, necessarily,
highly controlled, with resource providers and consumers defining clearly and carefully just what is shared, who is allowed
to share, and the conditions under which sharing occurs. A set
of individuals and/or institutions defined by such sharing
rules form what we call a virtual organization…’
Wat er aan de oude definitie ontbrak – volgens Foster en
Tuecke – waren sociale en procedurele afspraken omdat grid
computing over grenzen heen gaat. Deze grenzen kunnen
grenzen van organisatie zijn of landsgrenzen.
Grids worden meestal Grids in het kader van een ‘grid
probleem’. Een grid probleem wordt gedefinieerd als het op
een flexibele, veilige, gecoördineerde manier delen van
resources met een dynamisch veld van individuele instituten.
Wij noemen dat vaak virtuele organisaties. In zulke settings
stuiten we vaak op unieke authenticatie, authorisatie,
toegang tot resources en ander uitdagingen (14, Foster
2001).
Foster e.a omschrijven dit als (8, Foster, 1999):
‘…The real and specific problem that underlies the grid concept is coordinated resource sharing and problem solving in
dynamic, multi-institutional virtual organizations.’
Voorbeelden van grids
Intra, extra en intergrids
Een grid kan vanuit een geografisch gezichtpunt worden
verdeeld in: intragrids, extragrids en intergrids (16, Ferreira
2003).
Een intragrid bestaat uit verschillende rekeneenheden (‘computing resources’) van een organisatie in een beveiligd en
afgeschermd netwerkdomein (LAN/WAN). Door de
omvang (meestal niet groter dan 200 servers/desktops) van
Intragrids is het te karakteriseren als een vrij eenvoudig grid
met voldoende beschikbare bandbreedte en een grote mate
van stabiliteit. Meestal heeft een dergelijk grid een eenvoudige beveiliging.
Een extragrid is een combinatie van verschillende intragrids
en maakt daarom gebruik van meerdere lagen van beveiliging. Een goed voorbeeld van een extragrid is het Large
Hydroncolider Grid project van het CERN.
De laatste grid, het intergrid, is waarschijnlijk het meest
complex om in te zetten. Voorbeelden van dergelijke integrids zijn te vinden in de financiële wereld, reserach en development projecten en de farmaceutische industrie. Bij dit
type grids ligt sterk de nadruk op de beveiliging en het aantal
instellingen dat deel neemt en een bijdrage levert. Een voorbeeld project dat dit type grid het meest benadert is het
my
Grid project, waar commercieel farmaceutische bedrijven
gezamenlijk gebruik maken van één rekengrid. Dit is bijzonder, omdat farmaceutische bedrijven doorgaans zeer geheimzinnig en behoedzaam met hun eigen data omgaan. In het
my
Grid project wisselen zij uitkomsten onderling uit zonder
dat dit tot concurrentie problemen leidt.
Computing grid
Een computing grid kan grote complexe berekeningen uitvoeren, die onder normale omstandigheden (met behulp
van een aantal krachtige computers) niet uitgevoerd kunnen
worden. Of het zou te kostbaar worden om deze kosten te
maken voor een organisatie. In het verleden werd dit proces
aangeduid met ‘parallel computing’. Een complexe berekening werd opgedeeld in kleinere delen die onafhankelijk van
elkaar berekend konden worden. De noviteit van deze
manier van het uitvoeren van berekeningen met betrekking
tot grid computing is het feit dat grids parallel berekeningen
kunnen uitvoeren door gebruik te maken van verschillende
platformen/hardware.
Een goed voorbeeld is de ‘Large Hardon Collider (LHC)’
computer grid. Deze LHC is de deeltjes versneller in het
CERN onderzoeksinstituut. De LHC wordt gebruikt om in
het klein condities na te bootsen die zich voorgedaan hebben
net na de oerknal. Over een paar jaar verwachten de onderzoekers het kleinste deeltje te vinden. Om dit te deeltje te
kunnen vinden zal het LHC 15 petabytes (1 petabyte =
1 miljoen gigabyte) per jaar aan gegevens genereren. De
huidige technologie kan hiervoor geen berekeningen uitvoeren. Door grid computing toe te passen kan de enorme
stroom aan data verspreid worden over de in het grid aange-
36 | de EDP-Auditor nummer 3 | 2007
sloten computers die te vinden zijn in onder andere
Engeland, Duitsland, Frankrijk en Nederland.
Daarnaast is ook al een aantal commerciële computing grids
bekend. Een voorbeeld hiervan is de manier waarop Charles
Swab, een in Amerika gevestigde effectenmakelaar, een
specifiek risico in de portfolio van een klant kan herberekenen in een paar seconden in plaats van een paar minuten.
Het bedrijf maakt hierbij gebruik van bestaande berekeningstechnieken/architecturen. Men doet die door de berekening
uit te laten voeren in een cluster van computers (Linux
servers, DB2 databases en WebSphere middleware en Globus
Toolkit v2.0).
Een andere manier om dit te bewerkstelligen is door gebruik
te maken van de tijd dat een computer inactief (idle) is voor
het parallel verwerken van berekeningen of jobs. Alhoewel
er geen wetenschappelijke onderzoek is over de niet
gebruikte capaciteit van computers, beweren bedrijven dat
computers en servers in bedrijfsnetwerken niet volledig
benut worden voor 70 tot 95 procent van de tijd dat ze aan
staan. Door het samenvoegen van ongebruikte capaciteit
wordt het mogelijk om een virtuele supercomputer te
bouwen. Verschillende spelers in de farmaceutische industrie
gebruiken deze ongebruikte CPU-cycles om mee te werken
aan het DDP project (Drug Discovery Process). In dit project
worden 10.000 mogelijkheden getest – DNA-structuren,
RNA-vertalingen naar aminozuren et cetera – die vele dagen
in beslag zouden nemen. Door gebruik te maken van grid
computing kunnen deze berekeningen in een aantal uur
worden uitgevoerd. Een bestaand voorbeeld is het myGrid
intiatief in Engeland (12, Stevens, 2004).
Data grid
Een data grid is een grote grid waarin data kunnen worden
opgeslagen. In vergelijking met een Storage Area Nework
(SAN), is een data grid gebaseerd op hardware en software
van verschillende leveranciers en verschillende besturingssystemen. Een goed voorbeeld van een bekende toepassing
is Google Inc’s Gmail emailserver. Deze geeft email gebruikers een emailbox van 2 Gigabyte. Door 15.000 Linux X86
servers in sets van 1000 te clusteren, heeft Google waarschijnlijk een van de grootste clusters in de wereld gerealiseerd (11, Mellor 2004).
Net zoals vele andere IT ontwikkelingen is grid computing
gebaseerd op kennis uit het verleden. Voor het concept van
grid computing is de kennis op het gebied van netwerken,
protocollen, IT-architecturen en het ondersteunen van
bedrijfsprocessen gecombineerd. Het is dus iets nieuws als
we kijken naar de concepten en de filosofie maar niet als we
kijken naar de technologie die wordt toegepast.
Grid computing vs. cluster computing
In een cluster worden de ‘nodes’ (knooppunten) aan elkaar
gekoppeld door een Local Area Network (LAN) of andere
vormen van netwerken. De communicatie verloopt synchroon en de architectuur wordt gekarakteriseerd door
gedeelde geheugentoegang en parallelle input/output van
systemen. De ‘nodes’ (knooppunten) in een cluster lijken op
elkaar (zelfde operating systeem en de zelfde hardware).
Tot slot wordt de aansturing van het cluster local uitgevoerd
en kan eenvoudig naar een bron/resource worden gestuurd
(4, Foster, 1999), (5, Foster, 2002).
Grids daarentegen, zijn niet noodzakelijkerwijs gebonden
aan de fysieke grenzen van organisaties en kunnen dus over/
door meerdere organisaties heen lopen. De ‘nodes’ vormen
een heterogeen netwerk met verschillende hardware en software. Dat sluit overigens niet uit dat clusters onderdeel
kunnen zijn van een grid. In tegendeel, clusters kunnen een
enorme bijdrage leveren aan het grid.
Wat zijn de voor- en nadelen van grid computing?
Nadelen
Voordat grid computing breed kan worden ingezet moeten
er nog een aantal hordes genomen worden, waaronder:
• beschikbaarheid van IT personeel dat kan werken met grid
technologie;
• het ontwikkelen/toepassen van standaarden;
• het meer volwassen worden van technologie;
• software die aangepast kan worden voor toepassing in grid
omgevingen;
• ontwikkelen van methodiek voor het bepalen van vergoeding voor het gebruik van software (licenties).
In een rapport van Deloitte (13, Deloitte 2004) zijn de
resultaten van een onderzoek onder CIO’s in Europa weergegeven. Eén van de problemen waar men tegenaan loopt
voordat grid computing kan worden geïmplementeerd is de
beschikbaarheid van IT personeel dat kan werken met grid
technologie. In hetzelfde onderzoek concludeert Deloitte
dat het ontbreken van standaarden een groot probleem is,
net zoals de onvolwassen status van de huidige technologie.
Veel organisatie gebruiken de Globus Toolkit om een grid te
implementeren (10, Ferreira 2003).
De laatste twee nadelen zijn software gerelateerd. Een van
de nadelen is het feit dat niet alle software aangepast kan
worden om in een grid omgeving toegepast te kunnen
worden. Er moet een vorm van parallelle verwerking mogelijk zijn en rekentaken moeten opgedeeld kunnen worden.
Steeds meer artikelen verschijnen, die beschrijven hoe grid
applicaties het beste kunnen worden ontwikkeld.
Traditionele software licentieovereenkomsten worden
meestal gebaseerd op het aantal gebruikers van de software
of het aantal computers waarop de software is geïnstalleerd.
In een grid omgeving kan dit concept niet worden toegepast omdat er in een grid bijvoorbeeld meer dan 25.000
computers zijn aangesloten die gebruik maken van de
software. Hierdoor zouden de kosten van licenties voor
organisaties buitengewoon hoog zijn. Een mogelijke oplossing hiervoor is de toepassing van een staffeltechniek op
basis van het aantal knooppunten (nodes) in het netwerk.
37 | de EDP-Auditor nummer 3 | 2007
Voor de eerste 50 nodes waarop de software draait wordt
bedrag x aan licentiekosten in rekening gebracht en voor
iedere 50 nodes daarboven, neemt het licentiebedrag af
met 20%.
Voordelen
Ondanks de nadelen zijn er op dit moment ook al een aantal
voordelen, waaronder:
• vergrote van de efficiency van de inzet van computers;
• concurrentievoordeel;
• kostenbesparing;
• Schaalbaarheid.
Efficiency
Grid computing zorgt er voor dat computers samen werken.
Veel bedrijven beschikken over ongebruikte computercapaciteit (CPU cycles). De afgelopen jaren hebben bedrijven
miljoenen geïnvesteerd in serverparken en desktops. Onderzoek toont aan dat van servers slechts 10% van de beschikbare capaciteit wordt gebruikt. Van desktops wordt slecht
5% van de beschikbare capaciteit gebruikt (3, Mutka /
Liveny 1991).
Concurrentievoordeel
In het vorige hoofdstuk zijn de concurrentievoordelen al
besproken van het Google concept (de 2 gygabite mailbox).
Kostenbesparing
In een periode van besparingen is het goed om te weten dat
er technieken beschikbaar zijn die meer leveren met dezelfde
infrastructuur. Uit onderzoek van Gartner is naar voren
gekomen dat bij een opsplitsing van de totale uitgaven aan
IT (per categorie), 25% van het totale IT-budget wordt
besteed aan hardware. Een gebied waar dus veel besparingen
mogelijk zijn.
Schaalbaarheid
Een goed voorbeeld van grid computing is de schaalbaarheid. Extra nodes (knooppunt) kunnen worden toegevoegd
aan het grid doormiddel van software, en het grid doet de
rest automatisch. Technieken zoals ‘hot swap’ (toevoegen en
verwijderen van servers) in server farms zijn vergelijkbaar
maar het voordeel van grid is dat operatingsystemen of hardware niet identiek hoeven te zijn. Het is de grid software die
daarvoor zorgdraagt.
Grid computing: beveiliging, assurance
and IT-audit aspecten
Voordat we in deze paragraaf in gaan op een tweetal
gebieden waarop asurrance kan worden verkregen inzake
een grid omgeving, wordt eerst een definitie van assurance
gegeven.
De definitie van prof. Dr. K. Mollema wordt assurance als volgt
gedefinieerd:
‘…Giving insight in violations of the quality of an object
and in probabilities that these may occur, in such a way that it
becomes evident that a predefined standard is or isn’t met…’
Een assurance-opdracht is een opdracht waarbij een accountant of auditor een conclusie formuleert die is bedoeld om
het vertrouwen van beoogde gebruikers, niet zijnde de verantwoordelijke partij, in de uitkomst van de evaluatie van of
de toetsing van het object van onderzoek ten opzichte van
de criteria te verstrekken. De uitkomst van de evaluatie of de
toetsing van het object van onderzoek is de informatie die
het gevolg is van de toepassing van de criteria op het object
van onderzoek.
In relatie tot grid computing gaat het bij een assuranceopdracht dus over het identificeren van de risico’s van een
grid omgeving die impact hebben op de controledoelstelling, om vervolgens op basis van een normenkader vast te
stellen of voldoende maatregelen zijn getroffen om de risico’s te mitigeren.
Een belangrijk hoofdstuk in het Blueprintboek (8, Foster
1999) gaat over het assurance-vraagstuk en hoe beveiligingsmaatregelen en audits een rol spelen in de grid omgevingen.
Een van de eerste beveiligingsrisico’s die worden beschreven
gaat over hacking. Het risico bestaat dat hackers proberen
om toegang te krijgen tot het grid. Ook kunnen hackers een
‘denial of service attack’ uitvoeren op een grid. Voorbeelden
van dergelijk hackpogingen zijn reeds bekend. In maart
2006 werd een Sun Microsystem Grid onderuit gehaald
door een ‘denial-of-service attack’. Deze testomgeving grid
word door Sun gebruikt om klanten bekend te maken met
toepassingen van grids.
In de volgende paragraaf worden twee voorbeelden van
maatregelen besproken die de betrouwbaarheid van grid
omgevingen moeten vergroten.
Logische toegangsbeveiliging
In een grid omgeving zijn methoden voor logische toegangsbeveiliging anders dan die in de meer traditionele
omgeving waar auditors onderzoek doen. In bijvoorbeeld
een Unix omgeving worden door de leidinggevende gebruikers accounts aangemaakt om er voor te zorgen dat:
• gebruikers geïdentificeerd kunnen worden en verantwoordelijk kunnen worden gehouden voor de acties die zij uitvoeren op de Unix omgeving;
• gebruikers niet te veel rechten krijgen door ze in gebruikersgroepen te plaatsen, die rechten krijgen binnen de
Unix omgeving en waarvoor security policies gelden.
Deze manier van logische toegangsbeveiliging werkt in een
domein maar niet wanneer er sprake is van meerdere domeinen die via bijvoorbeeld via een grid aan elkaar gekoppeld
zijn (14, Butt e.a). Hoe moet bijvoorbeeld een node in het
grid een gebruiker autoriseren die niet bekend is in het
domein waartoe de gebruiker toegang wil krijgen om bijvoorbeeld gebruik te maken van rekencapaciteit of andere
resources ergens in het grid?
38 | de EDP-Auditor nummer 3 | 2007
Een manier om hiermee om te gaan in een grid omgeving is
het zogenaamde role based access control (RBAC). Bij de
toepassing van RBAC krijgt de gebruiker, bijvoorbeeld een
computer, een server of een cluster, eigenschappen mee
(attributes). Op basis van deze eigenschappen wordt een
beslissing genomen of een gebruiker/server, toegang krijgt
(15, Chadwick 2005).
Logging
Een manier om applicaties en operating systemen te beveiliging is door het aanzetten van logs en audit trails. De log
wordt weggeschreven in een beveiligde omgeving waar
alleen beveiligingsfunctionarissen toegang toe hebben. In de
log wordt vastgelegd wie wanneer heeft aangelogd en wat
hij/zij heeft gedaan.
Door de manier waarop een grid omgeving functioneert, is
het minder eenvoudig om op een plek een audit functie in
te richten die de log files van de toegang tot het grid kan
controleren. In een grid omgeving moet daarom de audit
functie op meerdere plekken worden belegd. Eén van de
mogelijke oplossingen is om gebruik te maken van beschikbare informatie in het grid. In een data grid verstuurd een
user interface (UI) een job via een Resource Broker (RB) die
vervolgens de job doorstuurt naar een Computing Element
(CE). Op het niveau van de Resource Broker zou IP- informatie van de User Interface verkregen kunnen worden. Het
risico bestaat dat het IP-adres wordt gemanipuleerd (Engels:
spoofing) en het dus niet mogelijk is om de identiteit van
een persoon te achterhalen.
Als grid computing op groter schaal wordt toegepast zal de
vraag naar assurance en risk control toenemen. Dat zal de
positie van de IT-auditor veranderen. Als grid computing
breder wordt toegepast zal de IT-auditor een belangrijkere
rol gaan spelen rondom assurance en risico management.
Meer dan ooit zal bij de ontwikkeling van grid informatie
technologie, beveiliging een belangrijke rol spelen. Met dit
in het achterhoofd zal het duidelijk zijn dat IT-auditors
betrokken moeten worden op een plek waar ze thuis horen:
‘on the forefront of Information Technology’.
Conclusie
De ondertitel van dit artikel/onderzoek bevatte de vraag of
grid computing een bevlieging-, een feit of fictie is. Om een
goed antwoord te kunnen geven werden drie centrale vragen
geformuleerd.
In dit artikel is een overzicht geschetst over wat grid computing en hoe het zich heeft ontwikkeld van verschillende
manieren van het uitvoeren van berekeningen (computing)
tot een filosofie/visie vandaag de dag. Op basis van de
literatuur die gebruikt is voor dit onderzoek, mag duidelijk
zijn dat grid computing een filosofie is. Veel onderzoekers
hebben grid computing gedefinieerd maar er is nog
steeds geen eenduidige definitie voorhanden. Om dit hiaat
te vullen stelde Ian Foster in 2002 een 3-punts checklist op
(16, Foster, 2002). In deze checklist, waarin hij spreekt
over: ‘…using standard, open, general-purpose protocols
and interfaces…’, is misschien wel het belangrijkste verschil
gelegen tussen grid computing en andere vormen van snelle
berekeningen (high performance computing) zoals cluster
computing. Door dit te beschrijven elimineerde hij ook de
meer commercieel getinte termen zoals: ‘on demand computing’ en ‘utility computing’.
Dat grid computing zeker geen fictie is, werd duidelijk door
de voorbeelden die zijn genoemd. In de academische wereld
wordt grid computing steeds meer toegepast. Op sommige
onderzoeksgebieden is men tot de conclusie gekomen dat
men niet meer zonder kan. Als voorbeelden hiervan zie je
dat er in de financiële wereld en farmaceutische industrie een
sterke behoefte is om de toepassing van het concept grid
computing verder te ontwikkelen. Niet alleen om een berekening sneller uit te kunnen voeren (zie voorbeeld in van de
effectenhandelaar) maar ook als een concurrentievoordeel
(zie voorbeeld Drug Discovery Process en Google met
Gmail).
De laatste centrale vraag ging over de invloed die grid computing heeft op het vakgebied IT-Auditing. De belangrijkste
conclusie is dat IT-auditors moeten begrijpen generieke
kennis van grid computing zouden moeten hebben als zij
hiermee in audits worden geconfronteerd. Grid computing
is op meerdere vlakken verschillend van IT- architecturen
waar we vandaag de dag mee te maken hebben. Daarom
kunnen de maatregelen die we vandaag de dag tegen komen
niet een op een gebruikt worden in een grid omgeving.
De toegevoegde waarde die de IT-auditor kan leveren in het
assurance en security vraagstuk schept nieuwe mogelijkheden. De IT-auditor zal een belangrijke rol gaan spelen bij
bedrijven die grid computing willen gaan toepassen. De
complexiteit van de IT objecten neemt toe door het toepassen van grid computing. Hierdoor moeten complexere controls worden ontworpen om de risico’s ten aanzien van integriteit en vertrouwelijkheid te mitigeren en de beveiliging
van grid systemen te vergroten.
De toepassing van grids kan een bijdrage leveren in het
reduceren van de totale kosten van IT. Organisaties die
samen van een grid gebruik maken kunnen voor een deel
van de totale benodigde rekencapaciteit gebruik maken van
elkaars rekencapaciteit (CPU cycles) via het grid. Bedrijven
zijn echter afwachtend omdat grid computing ook veel
nadelen met zich mee brengt, waaronder de kennis van
beschikbaar personeel en de onvolwassen technologie en het
ontbreken van standaarden.
Om van grid computing een ‘fact to happen’ te maken,
zal verder gewerkt moeten worden aan het verder ontwikkelen van kennisstandaarden voor integratie en business
cases voor haalbare, rendabele en competatieve toepassingen. ■
39 | de EDP-Auditor nummer 3 | 2007
Bijlage 1 – Gehanteerde literatuur
9. Foster, I. / Kesselman, C. / Tuecke, S., ‘The Anatomy of the Grid: Enabling
1. Fenn, J. / Linden, A., ‘Gartner’s Hype Cycle Special Report for 2005’,
Research, 5 August 2005, ID G00130115, 7 pages.
Supercomputer Applications, 1-25, 2001.
2. Brin, S. / Page, L., ‘The Anatomy of a Large-Scale Hypertextual Web
Search Engine’, Stanford University, 1998.
10. Ferreira, L., ‘Introduction to Grid Computing with Globus’, O’Reilly,
2003.
3. Kleinrock, “’nternet predecessor turns 30’, CNN.com, September 1999,
webpage.
11. Mellor, C., ‘Want to know how Gmail works?’, Techworld.com, 7 April
2004, website.
4. Foster, I. / Kesselman, C., ‘The Grid: Blueprint for a New Computing
Infrastructure’, Kaufmann, 1999, 733 pages.
12. Stevens, R. / McEntire, R. / e.a., ‘myGrid and the drug discovery process’,
BIOSILICO Vol. 2, No. 4 July 2004, 9 pages.
5. Foster, I. / Kesselman, C. / Nick, J. / Tuecke, S., ‘The physiology of the
grid’, Global Grid Forum, 2003.
13. Deloitte & Touche, ‘Tapping the hidden power of the grid’, September
2005, 2 pages.
6. Nemeth, Z. / Sunderam, V., ‘Characterizing Grids: Attributes,
Definitions, and Formalisms’, Journal of Grid Computing, 2003.
7. Finkelstein, A. / Gryce, C. / Lewis-Bowen, J., ‘Relating Requirements and
Architectures: A Study of Data-Grids’, Journal of Grid Computing, 2004,
16 pages.
14. Butt, R.A. / Adabala, S. / Kapdia, N.H. et. Al., ‘Grid computing portals
and security issues’, Journal of Parallel and Distributed Computing,
2003, 9 pages.
15. Chadwick, D., ‘Authorisation in Grid computing’, Information Security
Technical Report, 2005, 8 pages.
8. Zhuge, H., ‘China’s E-Science Knowledge Grid Environment’, IEEE
Computer Society, January-February 2004, 4 pages.
Scalable Virtual Organizations’, International Journal of
16. Foster, I., ‘What is the grid? A three point checklist’, Gridtoday, 2002,
webpage.
40 | de EDP-Auditor nummer 3 | 2007
Compleet werkt beter
Elsevier FiscaalTotaal. Alle fiscale antwoorden op een rij.
Soms is het overduidelijk dat iets niet compleet is. Maar zo eenvoudig is het
niet altijd voor fiscaal professionals. Kies daarom voor Elsevier FiscaalTotaal.
Dan heeft u altijd alle fiscale informatie en actualiteiten snel, eenvoudig en
gesorteerd op uw scherm. Vanuit één bron, één handige site. Met uw eigen
aantekeningen. Dat bespaart u kostbare zoektijd. Bovendien weet u zeker dat
u kwalitatief en compleet advies geeft. Ontdek het zelf op www.fiscaaltotaal.nl.
Elsevier Fiscale Media