Benchmarks
Nadat we FASTRA in elkaar hadden gezet, hebben we er Windows XP Professional (64-bit editie) opgezet. De volgende stap was het herkennen van alle vier de grafische kaarten. Toen we voor de eerste keer de PC opgestart hadden, werden er maar twee van de vier kaarten herkend. Na een urenlange zoektocht naar de magische volgorde om kaarten aan te sluiten en te herstarten, zagen we eindelijk het onderstaande scherm.

Om berekeningen te kunnen doen op de GPU, gebruiken we NVIDIA CUDA. Omdat CUDA ook ondersteund is door de nieuwste GeForce stuurprogramma's, hoefden we geen speciale CUDA-drivers te installeren.
Hoewel FASTRA 8 GPU's bevat, is het geen spel-computer. De voornaamste reden is dat er geen sterke samenwerking is tussen de losse GPU's. Elke serieuze gamer zou een moederbord gekozen hebben dat SLI ondersteunt, zodat de GPU's samen kunnen werken om een 3D scene weer te geven. Dit is ook de reden dat nog nooit iemand (zover wij weten) zo'n vreemd systeem heeft samengesteld. Het heeft normaal gesproken geen enkel nut om vier van die zware kaarten in 1 systeem te proppen. Gelukkig was het ontbreken van SLI geen probleem voor ons, omdat we geen SLI nodig hebben tijdens een reconstructie. Elke GPU communiceert uitsluitend met de CPU, zodat er geen communicatie nodig is tussen de GPU's. Uiteindelijk was ons grootste probleem dat er zeer weinig moederborden en computerkasten zijn die vier 9800GX2s kunnen herbergen.
Dit bleek uiteindelijk nog lastiger dan we in eerste instantie verwachtten. De meeste "normale" grote kasten bieden ruimte aan slechts 7 PCI-Express uitbreidingsslots. Omdat elke GX2 twee daarvan nodig heeft, zouden we er dan eentje tekort komen. Onze zoektocht eindigde in Taiwan, waar we een kast vonden van LIAN-LI die voldeed aan de eisen. Het moederbord dat we zochten moest 4 PCI-Express slots hebben, maar dan wel op zo'n manier dat elke grafische kaart twee slots tot zijn beschikking heeft. Er bestaat geen enkel moederbord met zoveel slots vrij en dat ook SLI ondersteunt. Daarom hebben we uiteindelijk gekozen voor de MSI-K9A2, waarin de vier grafische kaarten naast elkaar gezet kunnen worden.
3DMark06
Zoals gezegd is FASTRA geen gaming systeem. Daarnaast gebuiken we ook geen SLI. Maar ondanks dat is het toch interessant om te zien hoe onze PC het doet vergeleken met andere systemen. Daarom hebben als een eerste test 3DMark06 gedraaid. Hoewel SLI tussen verschillende grafische kaarten niet wordt ondersteund door het moederbord, is het wel mogelijk SLI aan te zetten tussen twee GPU's op dezelfde grafische kaart. De gekozen instellingen zijn de standard keuzes (1280x1024 pixels en "Optimal Filtering").

De scores zijn niet bepaald hoog te noemen. Dit is zoals verwacht, hoofdzakelijk vanwege de ontbrekende SLI communicatie tussen verschillende grafische kaarten. Hoewel we natuurlijk wel gehoopt hadden dat de resultaten wat beter zouden zijn, zodat we daar gebruik van konden maken wanneer onze baas niet aanwezig is. We hebben niet geprobeerd 3DMark op hogere resoluties te draaien, wat waarschijnlijk wel tot betere SLI resultaten zou leiden.
Tomografie
De werkelijke reden dat FASTRA is gebouwd, is om tomografische reconstructies te kunnen doen. We verwachtten bij dit type berekeningen de beste resultaten te behalen. Maar terwijl het duidelijk was waarmee we de gaming-prestaties konden meten, bestaat er geen duidelijk vergelijkbare testomgeving op het gebied van tomografie. Uiteindelijk hebben we besloten de prestaties van FASTRA te vergelijken met berekeningen die worden uitgevoerd op een normale processor, een CPU. De CPU-berekeningen hebben we uitgevoerd op een modern supercomputer cluster.
Onze supercomputer vonden we in "CalcUA", de supercomputer van de Universiteit van Antwerpen. Deze kostte 3,5 miljoen in maart 2005. Dankzij 256 rekeneenheden, die elk twee Opteron 250 processoren bevatten, is het een systeem dat ongeveer net zo krachtig is als 512 normale PC's. We hebben programma-code genomen die speciaal geschreven is voor CPU's. We maten de tijd die één node nodig had en deelden die tijd door 512, om zo een theoretische bovengrens te vinden van de kracht van de totale CalcUA.
We vergeleken de resultaten met die van onze GPU-code die draait op FASTRA. Als eerste keken we hoe lang het duurde om een groot aantal projecties te berekenen van veel slices. Deze bewerking kan worden beschouwd als een standaard operatie in iteratieve tomografie. We deden dit op alle acht de GPU's van FASTRA en maten de tijd die FASTRA ervoor nodig had. Vervolgens herhaalden we het experiment, maar dan voor een volledige iteratie van een tomografische reconstructie.
The resultaten van CalcUa en FASTRA werden daarna vergeleken. De volgende figuur toont de resultaten voor alleen de voorwaartse projectie. De grootte van de geprojecteerde afbeelding is 1024x1024 pixels, het aanal projecties is 1024 en het aantal detector pixels is 1536.
Het gebruikte CPU algoritme op de CalcUA is al twee jaar in gebruik in ons lab en is geoptimatiseerd voor de CPU. Dit zorgt ervoor dat de vergelijkingen een betekenisvol resultaat opleveren.
Tijdens de experimenten bleek dat we de GPU cores van de FASTRA veilig met 20% kunnen overclocken tot 720MHz, wat leidt tot merkbaar betere resultaten. De figuur geeft ook de resultaten aan van deze overclock.

Hier zien we dat CalcUA sneller is dan FASTRA voor projecties. Maar FASTRA ligt niet veel achter. Dit is zeker niet slecht voor een systeem dat minder dan 4000 euro heeft gekost!
De resultaten worden beter wanneer we volledige reconstructies beschouwen. Het gebruikte algoritme (zowel op FASTRA als op CalcUA) is SIRT. Dit algoritme gebruikt alle projecties in alle richtingen tijdens een enkele iteratie. Dit betekent dat het algoritme heel zwaar is vergeleken met andere reconstructie algoritmen. SIRT is een algoritme dat we in ons lab gebruiken bij het implementeren van nieuwe reconstructie algoritmen en het is daarom voor ons zeer belangrijk een snelle implementatie daarvan te hebben. De resultaten laten zien dat het snelle GPU geheugen ons een grote voorsprong geeft.

Nu zien we hoe snel FASTRA werkelijk is! De FASTRA is erin geslaagd om de "officiële" supercomputer te verslaan. Dit schetst een bijzonder spectaculair toekomstbeeld: voor bepaalde soorten applicaties kan een onderzoeksgroep full-time toegang hebben tot supercomputer rekenkracht.
Temperatuur
Vanwege het grote aantal GPU elementen in een kleine ruimte, verwachtten we grote temperatuurproblemen. Zoals zichtbaar is op de foto's, is er zeer weinig ruimte tussen de grafische kaarten. Daarom was het voor ons onmogelijk een goede luchtstroom te genereren, waarmee we ervoor wilde zorgen dat de GPU's goed hun warmte kwijt kunnen.
En inderdaad, tijdens onze eerste tests zagen we de temperaturen zeer snel omhoog gaan. We besloten de grens te leggen bij 100 graden Celcius. Wanneer de temperatuur over deze grens heen gaat, stoppen we de berekeningen. Uiteindelijk vonden we een relatief eenvoudige oplossing: het openen van de zijkant van FASTRA. Wanneer FASTRA open staat zijn de GPU's in staat hun warmte voldoende kwijt te raken. Uiteindelijk zullen we een extra ventilator in de zijkant installeren zodat we de kast kunnen sluiten. Tot die tijd genieten we van het uitzicht.
De NVIDIA driver staat het ons toe de temperatuur te bepalen van de GPU's, om op die manier een veilige overclock limiet te vinden. De volgende grafiek geeft de dramatische temperatuurstijging weer. De berekening begint op t=0.

De temperatuur is het hoogst wanneer de kast dicht is en de GPU's zijn overgeclockt. Interessant genoeg zorgt het sluiten van de kast voor een grotere temperatuurstoename dan het overclocken. Dit laat zien hoe groot de invloed is van de slechte luchtstroom.