04 / Leistungen · GPU-Server

GPU-Server mieten — 2× L40, gehostet in Deutschland.

Zwei NVIDIA L40 mit je 48 GB VRAM, Ada-Lovelace-Architektur, Tensor-Cores der vierten Generation — in unserem Rechenzentrum in Düsseldorf.

Geeignet für LLM-Inferenz Ausführen vortrainierter LLMs wie Llama 3, Mistral, Qwen — auch mit 70B-Parametern bei FP8 / INT4-Quantisierung. , Stable-Diffusion-Pipelines, Fine-Tuning kleinerer Modelle und Render-Workloads. Du bekommst Root-Zugriff, wir den Server-Betrieb darunter.

Aktuelle Verfügbarkeit

Wegen der angespannten Liefersituation bei NVIDIA-Beschleunigern haben wir derzeit genau zwei identische Server auf Lager — jeweils mit zwei NVIDIA L40. Individuelle Konfigurationen (andere GPU-Modelle, abweichende Specs) können wir aktuell nicht anbieten. Wer mehr Kapazität braucht, kommt gerne auf die Warteliste — wir melden uns, sobald sich die Lage ändert.

GPU
2× L40
Ada Lovelace
VRAM
2× 48 GB
GDDR6 · ECC
Tensor-FP8
362 TFLOPS
pro Karte
Standort
Düsseldorf
DSGVO · Deutschland
01 · Hardware

Eine Maschine. Komplett spezifiziert.

Beide verfügbaren Server sind identisch konfiguriert. Keine Optionsliste, keine Konfigurator-Tricks — du bekommst genau das, was hier steht. Wie die Hardware-Generationen darunter aussehen, steht auf Unsere Server.

GPU
2× NVIDIA L40 · 48 GB

Zwei Karten pro Server, je 48 GB GDDR6-ECC-VRAM. Ada-Lovelace, 18.176 CUDA-Cores, Tensor-Cores Gen 4, 362 TFLOPS Tensor-FP8 pro Karte (mit Sparsity). PCIe Gen 4 ×16, passiv gekühlt, 300 W TDP pro Karte.

CPU
AMD EPYC 9124

Genoa-Generation, 16 Cores / 32 Threads, Boost bis 3,7 GHz, AVX-512. Ausreichend Headroom für Daten-Pipeline parallel zu beiden GPUs.

RAM
512 GB DDR5-4800 ECC REG

8× Micron 64 GB, Registered ECC. Reicht für große Datasets im Hauptspeicher und parallele Worker-Prozesse beim Inference-Serving.

Storage
Kioxia CD8-R · 960 GB NVMe

Enterprise-NVMe mit 1 DWPD Endurance. Optional zusätzlicher Ceph-Storage für Modell-Repositorys, Checkpoints und Trainingsdaten.

Netz
4× 10 GBit SFP+

Quad-Port-Anbindung an unser Backbone — Bandbreite und Trennung von Management, Storage und Public bei Bedarf möglich.

Sicherheit
Hardware-Firewall · VPN optional

Vorgelagerte Hardware-Firewall mit IPS/IDS am Standort. Auf Wunsch zusätzlich VPN-Tunnel zu deinem Office-Netz. Root bleibt bei dir.

02 · Wofür die L40 taugt

96 GB VRAM verteilt auf zwei Karten — der interessante Bereich.

LLM-Inferenz
bis 70B (FP8)

Llama 3, Mistral, Qwen, Mixtral. Mit Quantisierung passen auch große Modelle in 48 GB VRAM.

Fine-Tuning
LoRA · QLoRA

Adapter-Training für 7B–13B-Modelle direkt auf der Karte. Volltraining kleinerer Modelle möglich.

Bildgenerierung
Stable Diffusion · Flux

SDXL, FLUX.1, ControlNet-Pipelines. Genug Headroom für hohe Auflösungen und Batch-Inferenz.

Rendering / Grafik
RTX-Workloads

Blender, Houdini, V-Ray, Unreal Engine. Hardware-Raytracing-Cores der vierten Generation.

03 · Häufige Fragen

Was vor der Anfrage zu klären ist.

Warum nur die L40 — und nichts anderes? +

Der Markt für aktuelle NVIDIA-Beschleuniger ist eng. Wir haben in den letzten Lieferzyklen die Konfiguration bekommen, die wir bekommen konnten — zwei Server mit je zwei L40. H100, H200, A100, L40S oder größere Multi-GPU-Setups können wir aktuell nicht beschaffen. Sobald sich das ändert, melden wir Wartelisten-Anfragen aktiv zurück.

Wie viele Maschinen sind verfügbar? +

Genau zwei, identisch konfiguriert mit je 2× L40. Wer beide reservieren möchte, sollte das in der Anfrage erwähnen — sonst gilt: First come, first served.

Bekomme ich Root-Zugang? +

Ja. Du administrierst die Maschine selbst, wir kümmern uns um Hypervisor, Netzwerk und Storage. CUDA-Toolkit, Frameworks (PyTorch, TensorFlow, vLLM) installierst du nach deinem Bedarf — wir zwingen dir keinen Stack auf.

Gibt es Managed-Optionen? +

Auf Wunsch ja. Standardmäßig bekommst du eine unmanagete Maschine mit Root. Auf Anfrage übernehmen wir Monitoring, OS-Patches, Logfile-Auswertung und Sicherheits-Updates — passend zu unseren SLA-Stufen.

Was kostet der L40-Server pro Monat? +

Den exakten Preis nennen wir in der Antwort auf deine Anfrage — er hängt von Laufzeit, Managed-Anteil und Storage-Erweiterung ab. Größenordnung: deutlich unter dem, was Hyperscaler für vergleichbare Konfigurationen aufrufen.

Welche Mindestlaufzeit? +

Ein Monat. Wer länger bleibt, bekommt einen Rabatt — klassische Cloud-Stundenabrechnung gibt es bei uns nicht, dafür planbare Fixkosten.

Steht die Hardware in Deutschland? +

Ja, ausschließlich. Beide Server stehen in unserem Rechenzentrum in Düsseldorf, ISO 27001, Software Hosted in Germany. Kein Datentransfer in Drittländer.

AV-Vertrag nach DSGVO? +

Ist enthalten und liegt nach Vertragsabschluss im Kundencenter zum Download und zur elektronischen Unterzeichnung bereit.

Test-Phase möglich? +

Bei dieser Liefersituation nicht — wir würden den Server für Testkunden blockieren, der dann produktiv fehlt. Die ein Monat Mindestlaufzeit ist der praktische Ersatz.

Was, wenn die Hardware ausfällt? +

Wir tauschen Komponenten aus dem Lager direkt aus. Bei einem Total-Defekt der GPU selbst hängt das Fenster an der NVIDIA-RMA — realistische Ausfallzeit 1–3 Werktage. Backup deiner Modelle und Daten bleibt deine Aufgabe, wir liefern nur die Hardware.

04 · Anfrage

Sag uns, was du auf der Karte vorhast.

* Pflichtfeld

„GPUs sind aktuell ein Markt, in dem Geduld mehr wert ist als Marketing. Wir sagen offen, was da ist — und was nicht."
— unser Beschaffungs-Grundsatz, Stand 2026