04 / Leistungen · GPU-Server

GPU-Server mieten — 2× L40, gehostet in Deutschland.

Zwei NVIDIA L40 mit je 48 GB VRAM, Ada-Lovelace-Architektur, Tensor-Cores der vierten Generation — in unserem Rechenzentrum in Düsseldorf.

Geeignet für LLM-Inferenz , Stable-Diffusion-Pipelines, Fine-Tuning kleinerer Modelle und Render-Workloads. Du bekommst Root-Zugriff, wir den Server-Betrieb darunter.

Aktuelle Verfügbarkeit

Wegen der angespannten Liefersituation bei NVIDIA-Beschleunigern haben wir derzeit genau zwei identische Server auf Lager — jeweils mit zwei NVIDIA L40. Individuelle Konfigurationen (andere GPU-Modelle, abweichende Specs) können wir aktuell nicht anbieten. Wer mehr Kapazität braucht, kommt gerne auf die Warteliste — wir melden uns, sobald sich die Lage ändert.

Anfrage starten → +49 (0)2102 305 84 30

GPU

2× L40

Ada Lovelace

VRAM

2× 48 GB

GDDR6 · ECC

Tensor-FP8

362 TFLOPS

pro Karte

Standort

Düsseldorf

DSGVO · Deutschland

01 · Hardware

Eine Maschine. Komplett spezifiziert.

Beide verfügbaren Server sind identisch konfiguriert. Keine Optionsliste, keine Konfigurator-Tricks — du bekommst genau das, was hier steht. Wie die Hardware-Generationen darunter aussehen, steht auf Unsere Server.

GPU

2× NVIDIA L40 · 48 GB

Zwei Karten pro Server, je 48 GB GDDR6-ECC-VRAM. Ada-Lovelace, 18.176 CUDA-Cores, Tensor-Cores Gen 4, 362 TFLOPS Tensor-FP8 pro Karte (mit Sparsity). PCIe Gen 4 ×16, passiv gekühlt, 300 W TDP pro Karte.

CPU

AMD EPYC 9124

Genoa-Generation, 16 Cores / 32 Threads, Boost bis 3,7 GHz, AVX-512. Ausreichend Headroom für Daten-Pipeline parallel zu beiden GPUs.

RAM

512 GB DDR5-4800 ECC REG

8× Micron 64 GB, Registered ECC. Reicht für große Datasets im Hauptspeicher und parallele Worker-Prozesse beim Inference-Serving.

Storage

Kioxia CD8-R · 960 GB NVMe

Enterprise-NVMe mit 1 DWPD Endurance. Optional zusätzlicher Ceph-Storage für Modell-Repositorys, Checkpoints und Trainingsdaten.

Netz

4× 10 GBit SFP+

Quad-Port-Anbindung an unser Backbone — Bandbreite und Trennung von Management, Storage und Public bei Bedarf möglich.

Sicherheit

Hardware-Firewall · VPN optional

Vorgelagerte Hardware-Firewall mit IPS/IDS am Standort. Auf Wunsch zusätzlich VPN-Tunnel zu deinem Office-Netz. Root bleibt bei dir.

02 · Wofür die L40 taugt

96 GB VRAM verteilt auf zwei Karten — der interessante Bereich.

LLM-Inferenz

bis 70B (FP8)

Llama 3, Mistral, Qwen, Mixtral. Mit Quantisierung passen auch große Modelle in 48 GB VRAM.

Fine-Tuning

LoRA · QLoRA

Adapter-Training für 7B–13B-Modelle direkt auf der Karte. Volltraining kleinerer Modelle möglich.

Bildgenerierung

Stable Diffusion · Flux

SDXL, FLUX.1, ControlNet-Pipelines. Genug Headroom für hohe Auflösungen und Batch-Inferenz.

Rendering / Grafik

RTX-Workloads

Blender, Houdini, V-Ray, Unreal Engine. Hardware-Raytracing-Cores der vierten Generation.

03 · Häufige Fragen

Was vor der Anfrage zu klären ist.

Warum nur die L40 — und nichts anderes? +

Der Markt für aktuelle NVIDIA-Beschleuniger ist eng. Wir haben in den letzten Lieferzyklen die Konfiguration bekommen, die wir bekommen konnten — zwei Server mit je zwei L40. H100, H200, A100, L40S oder größere Multi-GPU-Setups können wir aktuell nicht beschaffen. Sobald sich das ändert, melden wir Wartelisten-Anfragen aktiv zurück.

Wie viele Maschinen sind verfügbar? +

Genau zwei, identisch konfiguriert mit je 2× L40. Wer beide reservieren möchte, sollte das in der Anfrage erwähnen — sonst gilt: First come, first served.

Bekomme ich Root-Zugang? +

Ja. Du administrierst die Maschine selbst, wir kümmern uns um Hypervisor, Netzwerk und Storage. CUDA-Toolkit, Frameworks (PyTorch, TensorFlow, vLLM) installierst du nach deinem Bedarf — wir zwingen dir keinen Stack auf.

Gibt es Managed-Optionen? +

Auf Wunsch ja. Standardmäßig bekommst du eine unmanagete Maschine mit Root. Auf Anfrage übernehmen wir Monitoring, OS-Patches, Logfile-Auswertung und Sicherheits-Updates — passend zu unseren SLA-Stufen.

Was kostet der L40-Server pro Monat? +

Den exakten Preis nennen wir in der Antwort auf deine Anfrage — er hängt von Laufzeit, Managed-Anteil und Storage-Erweiterung ab. Größenordnung: deutlich unter dem, was Hyperscaler für vergleichbare Konfigurationen aufrufen.

Welche Mindestlaufzeit? +

Ein Monat. Wer länger bleibt, bekommt einen Rabatt — klassische Cloud-Stundenabrechnung gibt es bei uns nicht, dafür planbare Fixkosten.

Steht die Hardware in Deutschland? +

Ja, ausschließlich. Beide Server stehen in unserem Rechenzentrum in Düsseldorf, ISO 27001, Software Hosted in Germany. Kein Datentransfer in Drittländer.

AV-Vertrag nach DSGVO? +

Ist enthalten und liegt nach Vertragsabschluss im Kundencenter zum Download und zur elektronischen Unterzeichnung bereit.

Test-Phase möglich? +

Bei dieser Liefersituation nicht — wir würden den Server für Testkunden blockieren, der dann produktiv fehlt. Die ein Monat Mindestlaufzeit ist der praktische Ersatz.

Was, wenn die Hardware ausfällt? +

Wir tauschen Komponenten aus dem Lager direkt aus. Bei einem Total-Defekt der GPU selbst hängt das Fenster an der NVIDIA-RMA — realistische Ausfallzeit 1–3 Werktage. Backup deiner Modelle und Daten bleibt deine Aufgabe, wir liefern nur die Hardware.

04 · Anfrage

Sag uns, was du auf der Karte vorhast.

Name *

Firma

E-Mail *

Telefon

Anzahl Server

Laufzeit

Workload

Managed-Service

Wann brauchst du sie?

Worum geht es? *

Ich habe die Datenschutzerklärung gelesen und stimme der Verarbeitung meiner Anfrage zu. *

* Pflichtfeld

Bestand · 2 von 2

Beide Server sind aktuell verfügbar. Anfragen werden in der Reihenfolge des Eingangs beantwortet. Wer eine Konfiguration jenseits der L40 braucht, kommt auf die Warteliste — wir melden uns, sobald neue Hardware eintrifft.

Was passiert als Nächstes

01

Sichtung

Ein Techniker liest deine Anfrage, prüft Workload-Eignung und Bestand.
02

Konkretes Angebot

Innerhalb eines Werktags: Preis, Laufzeit, frühest-möglicher Start.
03

Bereitstellung

Maschine ist nach Vertragsschluss üblicherweise binnen 1–2 Werktagen produktiv.

Lieber direkt sprechen

Telefon: +49 (0)2102 305 84 30
E-Mail: vertrieb@rackspeed.de
Erreichbar: Mo–Fr · 9–18 Uhr

Antwort von einem Techniker, kein Vertriebs-Funnel
Root bleibt bei dir, kein erzwungener Stack
1 Monat Mindestlaufzeit, keine Cloud-Stundenfalle

// Mehr zur Plattform

„GPUs sind aktuell ein Markt, in dem Geduld mehr wert ist als Marketing. Wir sagen offen, was da ist — und was nicht."

— unser Beschaffungs-Grundsatz, Stand 2026

GPU-Server mieten — 2× L40, gehostet in Deutschland.

Eine Maschine. Komplett spezifiziert.

96 GB VRAM verteilt auf zwei Karten — der interessante Bereich.

Was vor der Anfrage zu klären ist.

Sag uns, was du auf der Karte vorhast.

Unsere Server

Rechenzentren

Managed Server