EU AI Act Limited Risk · ISO 42001 aligned

KI-Modelle unter
Ihrer Kontrolle.

Der IIO AI Hub betreibt 26 Sprachmodelle auf EU-Hardware — 11 lokal für €0 pro Token, 15 Cloud-Modelle als Fallback. OpenAI-API-kompatibel. HITL-Gates integriert. Keine Datenweitergabe an US-Dienste.

EU-only Hosting 94% lokales Routing €0/Token lokal OpenAI-kompatibel

AI Hub Kennzahlen

26 KI-Modelle
gesamt
11 Lokale Modelle
€0/Token
94% Lokales
Routing
96GB VRAM
EU-Hardware
€0 Lokale Token-
Kosten

Lokale Modelle zuerst. Cloud als Fallback.

Das Cost-Based-Routing wählt automatisch das effizienteste Modell für jede Anfrage. Lokale Modelle haben immer Priorität (cost=0.0).

Lokal (EU-Hardware, €0/Token)
Cloud-Fallback (kostenpflichtig)
Llama 3 70B Instruct
● Lokal · €0/Token

Meta's Spitzenmodell für Instruction-Following. Deutsch, Englisch, multilingual. Ideal für Textgenerierung, Zusammenfassungen.

Mistral 7B v0.3
● Lokal · €0/Token

Schnell und effizient für einfache Aufgaben. Geringer VRAM-Bedarf. Ideal für Chat, Klassifizierung.

CodeLlama 34B
● Lokal · €0/Token

Spezialisiertes Code-Modell von Meta. Python, JavaScript, TypeScript, SQL, Bash. Ideal für Developer-Workflows.

Mixtral 8x7B MoE
● Lokal · €0/Token

Mixture-of-Experts Architektur. Hohe Qualität bei geringerem Ressourcenverbrauch. Gut für komplexe Reasoning-Tasks.

Embedding-Modelle (lokal)
● Lokal · €0/Token

sentence-transformers/all-MiniLM und nomic-embed-text für Vektorsuche, RAG-Systeme und semantische Ähnlichkeitssuche.

Weitere lokale Modelle
● Lokal · €0/Token

6 weitere Modelle lokal verfügbar — darunter Phi-3, Gemma 2, spezialisierte Finanz- und Rechtsmodelle. Auf Anfrage konfigurierbar.

Claude 3.5 Sonnet
☁ Cloud-Fallback

Anthropic's Spitzenmodell für komplexe Reasoning-Tasks. Nur wenn lokale Kapazität überschritten. EU AI Act konform genutzt.

GPT-4o + weitere OpenAI
☁ Cloud-Fallback

OpenAI-Modelle als letzter Fallback. Cost-Based-Routing sorgt für minimalen Einsatz. HITL-Gate vor sensitiven Anfragen.

aimlapi.com Modelle (13)
☁ Cloud-Fallback

Weitere 13 Cloud-Modelle über aimlapi.com — für Spezialaufgaben und als Kapazitätspuffer. Alle mit HITL-Gate-Check.

Wie der AI Hub Anfragen verarbeitet.

LiteLLM als zentrales Routing-Layer. HITL-Check vor kritischen Aktionen. Cost-Based-Routing für optimale Effizienz.

KI mit menschlicher
Kontrolle.

Jede KI-Anfrage läuft durch den Gate-Check. Kritische Aktionen — externe Kommunikation, Finanz-Transaktionen, Deployments — warten auf explizite Freigabe.

Anfrage eingeht

Ihre Anwendung sendet eine Anfrage an den AI Hub über den OpenAI-kompatiblen Endpunkt.

Gate-Level bestimmt

Das System klassifiziert die Anfrage: AUTO (sofort), NOTIFY (informiert), HITL (wartet auf Freigabe) oder BLOCK (abgelehnt).

Freigabe oder Blockierung

HITL-Anfragen werden per Matrix/E-Mail an den zuständigen Operator gesendet. Mobil genehmigbar. Vollständig protokolliert.

Ausführung + Audit

Nach Freigabe wird die Aktion ausgeführt. Token-Verbrauch, Gate-Entscheid und Ergebnis werden im Cost-Ledger protokolliert.

HITL-Gate Konfiguration (YAML)
# hitl-gate-definitions.yaml
# Gate für externe Kommunikation

gate_id: gate.external-comm-ai
name: "KI-generierte externe Nachricht"
level: HITL
trigger:
  - ai_generated: true
  - channel: external
approver: operator_admin
timeout_h: 4
fallback: BLOCK
evidence_required: true
audit_log: always

# Ergebnis: kein AI-Text geht extern
# ohne explizite Freigabe.

OpenAI-kompatibel. Einmal wechseln, überall nutzen.

Jede Anwendung die OpenAI-API versteht, funktioniert sofort mit dem IIO AI Hub.

Beispiel: Python OpenAI SDK → IIO AI Hub
# Nur base_url und api_key ändern
from openai import OpenAI

client = OpenAI(
    base_url="https://api.iio.space:4000",
    api_key="your-virtual-key"  # IIO Virtual Key
)

response = client.chat.completions.create(
    model="llama-3-70b-local",  # lokal, €0/Token
    messages=[{
        "role": "user",
        "content": "Analysiere diesen Vertrag..."
    }]
)

# → Automatisches Routing: lokal wenn möglich
# → HITL-Check je nach Gate-Konfiguration
# → Audit-Trail automatisch erzeugt

AI Hub ist in allen Paketen enthalten.

Starter
€29/Monat

3 Modelle · 1 Mio. Tokens · 5 User · Basis HITL

Starten
Enterprise
€490/Monat

Dedizierter Node · unbegrenzt · Custom-Modelle · Multi-Tenant

Kontakt

KI-Modelle unter Ihrer Kontrolle —
EU-gehostet, lokal, HITL-gesichert.

Starten Sie kostenlos oder buchen Sie eine Demo, um den AI Hub live zu erleben.

GEMESSENE ZAHLEN · MAI 2026 · 377 SESSIONS

Bis zu 95% weniger Token-Kosten.
Gemessen, nicht geschätzt.

Wir haben auf IIO AI Hub umgestellt und messen seither bis zu 95% weniger Kosten pro Session. Die Zahlen stammen aus 377 realen Sessions mit 16,5 Milliarden Tokens.

95%
weniger Token-Kosten
~€16,43 Cloud vs ~€0,74 lokal
€0
pro Token lokal
qwen2.5-coder:32b, deepseek-coder-v2:16b
€280
Server/Monat fix
Hetzner GEX44, RTX 4000 Ada
VERGLEICH CLOUD DIREKT VS IIO AI HUB (GEMESSEN MAI 2026)
Metrik Cloud direkt IIO AI Hub lokal
Kosten pro Session~€16,43~€0,74
Output-Token-Preis/1M€0,00
100 Sessions/Monat~€1.643€280 fix
DatenschutzCloud-Provider100% lokal
* Quelle: agent-cost-summary.json, 377 Sessions, 16,5 Mrd Tokens, Mai 2026. Claude Sonnet Listenpreis.
AI Hub konfigurieren →