GPU-Server mieten — 2× L40, gehostet in Deutschland.
Zwei NVIDIA L40 mit je 48 GB VRAM, Ada-Lovelace-Architektur, Tensor-Cores der vierten Generation — in unserem Rechenzentrum in Düsseldorf.
Geeignet für LLM-Inferenz Ausführen vortrainierter LLMs wie Llama 3, Mistral, Qwen — auch mit 70B-Parametern bei FP8 / INT4-Quantisierung. , Stable-Diffusion-Pipelines, Fine-Tuning kleinerer Modelle und Render-Workloads. Du bekommst Root-Zugriff, wir den Server-Betrieb darunter.
Wegen der angespannten Liefersituation bei NVIDIA-Beschleunigern haben wir derzeit genau zwei identische Server auf Lager — jeweils mit zwei NVIDIA L40. Individuelle Konfigurationen (andere GPU-Modelle, abweichende Specs) können wir aktuell nicht anbieten. Wer mehr Kapazität braucht, kommt gerne auf die Warteliste — wir melden uns, sobald sich die Lage ändert.
Eine Maschine. Komplett spezifiziert.
Beide verfügbaren Server sind identisch konfiguriert. Keine Optionsliste, keine Konfigurator-Tricks — du bekommst genau das, was hier steht. Wie die Hardware-Generationen darunter aussehen, steht auf Unsere Server.
Zwei Karten pro Server, je 48 GB GDDR6-ECC-VRAM. Ada-Lovelace, 18.176 CUDA-Cores, Tensor-Cores Gen 4, 362 TFLOPS Tensor-FP8 pro Karte (mit Sparsity). PCIe Gen 4 ×16, passiv gekühlt, 300 W TDP pro Karte.
Genoa-Generation, 16 Cores / 32 Threads, Boost bis 3,7 GHz, AVX-512. Ausreichend Headroom für Daten-Pipeline parallel zu beiden GPUs.
8× Micron 64 GB, Registered ECC. Reicht für große Datasets im Hauptspeicher und parallele Worker-Prozesse beim Inference-Serving.
Enterprise-NVMe mit 1 DWPD Endurance. Optional zusätzlicher Ceph-Storage für Modell-Repositorys, Checkpoints und Trainingsdaten.
Quad-Port-Anbindung an unser Backbone — Bandbreite und Trennung von Management, Storage und Public bei Bedarf möglich.
Vorgelagerte Hardware-Firewall mit IPS/IDS am Standort. Auf Wunsch zusätzlich VPN-Tunnel zu deinem Office-Netz. Root bleibt bei dir.
96 GB VRAM verteilt auf zwei Karten — der interessante Bereich.
Llama 3, Mistral, Qwen, Mixtral. Mit Quantisierung passen auch große Modelle in 48 GB VRAM.
Adapter-Training für 7B–13B-Modelle direkt auf der Karte. Volltraining kleinerer Modelle möglich.
SDXL, FLUX.1, ControlNet-Pipelines. Genug Headroom für hohe Auflösungen und Batch-Inferenz.
Blender, Houdini, V-Ray, Unreal Engine. Hardware-Raytracing-Cores der vierten Generation.
Was vor der Anfrage zu klären ist.
Warum nur die L40 — und nichts anderes? +
Der Markt für aktuelle NVIDIA-Beschleuniger ist eng. Wir haben in den letzten Lieferzyklen die Konfiguration bekommen, die wir bekommen konnten — zwei Server mit je zwei L40. H100, H200, A100, L40S oder größere Multi-GPU-Setups können wir aktuell nicht beschaffen. Sobald sich das ändert, melden wir Wartelisten-Anfragen aktiv zurück.
Wie viele Maschinen sind verfügbar? +
Genau zwei, identisch konfiguriert mit je 2× L40. Wer beide reservieren möchte, sollte das in der Anfrage erwähnen — sonst gilt: First come, first served.
Bekomme ich Root-Zugang? +
Ja. Du administrierst die Maschine selbst, wir kümmern uns um Hypervisor, Netzwerk und Storage. CUDA-Toolkit, Frameworks (PyTorch, TensorFlow, vLLM) installierst du nach deinem Bedarf — wir zwingen dir keinen Stack auf.
Gibt es Managed-Optionen? +
Auf Wunsch ja. Standardmäßig bekommst du eine unmanagete Maschine mit Root. Auf Anfrage übernehmen wir Monitoring, OS-Patches, Logfile-Auswertung und Sicherheits-Updates — passend zu unseren SLA-Stufen.
Was kostet der L40-Server pro Monat? +
Den exakten Preis nennen wir in der Antwort auf deine Anfrage — er hängt von Laufzeit, Managed-Anteil und Storage-Erweiterung ab. Größenordnung: deutlich unter dem, was Hyperscaler für vergleichbare Konfigurationen aufrufen.
Welche Mindestlaufzeit? +
Ein Monat. Wer länger bleibt, bekommt einen Rabatt — klassische Cloud-Stundenabrechnung gibt es bei uns nicht, dafür planbare Fixkosten.
Steht die Hardware in Deutschland? +
Ja, ausschließlich. Beide Server stehen in unserem Rechenzentrum in Düsseldorf, ISO 27001, Software Hosted in Germany. Kein Datentransfer in Drittländer.
AV-Vertrag nach DSGVO? +
Ist enthalten und liegt nach Vertragsabschluss im Kundencenter zum Download und zur elektronischen Unterzeichnung bereit.
Test-Phase möglich? +
Bei dieser Liefersituation nicht — wir würden den Server für Testkunden blockieren, der dann produktiv fehlt. Die ein Monat Mindestlaufzeit ist der praktische Ersatz.
Was, wenn die Hardware ausfällt? +
Wir tauschen Komponenten aus dem Lager direkt aus. Bei einem Total-Defekt der GPU selbst hängt das Fenster an der NVIDIA-RMA — realistische Ausfallzeit 1–3 Werktage. Backup deiner Modelle und Daten bleibt deine Aufgabe, wir liefern nur die Hardware.
Sag uns, was du auf der Karte vorhast.
Unsere Server
v4, v5.1, v5.7 — welche Hardware-Generationen wir sonst betreiben.
Specs ansehenRechenzentren
Wo die GPUs physisch stehen — Düsseldorf, ISO 27001, DSGVO-konform.
Standorte ansehenManaged Server
Wenn du keinen Root brauchst und lieber den ganzen Stack betreut hättest — SLA-Stufen inklusive.
Managed-Optionen„GPUs sind aktuell ein Markt, in dem Geduld mehr wert ist als Marketing. Wir sagen offen, was da ist — und was nicht."