EU AI Act Limited Risk · ISO 42001 aligned

KI-Modelle unter
Ihrer Kontrolle.

Der IIO AI Hub betreibt 26 Sprachmodelle auf EU-Hardware — 11 lokal für €0 pro Token, 15 Cloud-Modelle als Fallback. OpenAI-API-kompatibel. HITL-Gates integriert. Keine Datenweitergabe an US-Dienste.

Kostenlos starten → Demo buchen

EU-only Hosting 94% lokales Routing €0/Token lokal OpenAI-kompatibel

26 KI-Modelle
gesamt

11 Lokale Modelle
€0/Token

94% Lokales
Routing

96GB VRAM
EU-Hardware

€0 Lokale Token-
Kosten

Verfügbare Modelle

Lokale Modelle zuerst. Cloud als Fallback.

Das Cost-Based-Routing wählt automatisch das effizienteste Modell für jede Anfrage. Lokale Modelle haben immer Priorität (cost=0.0).

Lokal (EU-Hardware, €0/Token)

Cloud-Fallback (kostenpflichtig)

Llama 3 70B Instruct

● Lokal · €0/Token

Meta's Spitzenmodell für Instruction-Following. Deutsch, Englisch, multilingual. Ideal für Textgenerierung, Zusammenfassungen.

Mistral 7B v0.3

● Lokal · €0/Token

Schnell und effizient für einfache Aufgaben. Geringer VRAM-Bedarf. Ideal für Chat, Klassifizierung.

CodeLlama 34B

● Lokal · €0/Token

Spezialisiertes Code-Modell von Meta. Python, JavaScript, TypeScript, SQL, Bash. Ideal für Developer-Workflows.

Mixtral 8x7B MoE

● Lokal · €0/Token

Mixture-of-Experts Architektur. Hohe Qualität bei geringerem Ressourcenverbrauch. Gut für komplexe Reasoning-Tasks.

Embedding-Modelle (lokal)

● Lokal · €0/Token

sentence-transformers/all-MiniLM und nomic-embed-text für Vektorsuche, RAG-Systeme und semantische Ähnlichkeitssuche.

Weitere lokale Modelle

● Lokal · €0/Token

6 weitere Modelle lokal verfügbar — darunter Phi-3, Gemma 2, spezialisierte Finanz- und Rechtsmodelle. Auf Anfrage konfigurierbar.

Claude 3.5 Sonnet

☁ Cloud-Fallback

Anthropic's Spitzenmodell für komplexe Reasoning-Tasks. Nur wenn lokale Kapazität überschritten. EU AI Act konform genutzt.

GPT-4o + weitere OpenAI

☁ Cloud-Fallback

OpenAI-Modelle als letzter Fallback. Cost-Based-Routing sorgt für minimalen Einsatz. HITL-Gate vor sensitiven Anfragen.

aimlapi.com Modelle (13)

☁ Cloud-Fallback

Weitere 13 Cloud-Modelle über aimlapi.com — für Spezialaufgaben und als Kapazitätspuffer. Alle mit HITL-Gate-Check.

Architektur

Wie der AI Hub Anfragen verarbeitet.

LiteLLM als zentrales Routing-Layer. HITL-Check vor kritischen Aktionen. Cost-Based-Routing für optimale Effizienz.

Ihre App

OpenAI-API-
kompatibler Client

IIO AI Hub

LiteLLM Router
Cost-Based-Routing
Virtual Keys

HITL-Gate

AUTO / NOTIFY
HITL / BLOCK
per Gate-Level

🖥 Lokal (94%)

inhzgx9
96GB VRAM

☁ Cloud (6%)

Anthropic
OpenAI / aimlapi

Routing-Strategie

Cost-Based: lokal cost=0.0, Cloud cost>0. Lokale Modelle immer bevorzugt.

HITL-Integration

Jede Anfrage wird nach Gate-Level geprüft. Kritische Aktionen warten auf Freigabe.

Audit-Trail

Jedes Token, jede Anfrage, jeder Gate-Entscheid wird im Cost-Ledger protokolliert.

HITL-Integration

KI mit menschlicher
Kontrolle.

Jede KI-Anfrage läuft durch den Gate-Check. Kritische Aktionen — externe Kommunikation, Finanz-Transaktionen, Deployments — warten auf explizite Freigabe.

Anfrage eingeht

Ihre Anwendung sendet eine Anfrage an den AI Hub über den OpenAI-kompatiblen Endpunkt.

Gate-Level bestimmt

Das System klassifiziert die Anfrage: AUTO (sofort), NOTIFY (informiert), HITL (wartet auf Freigabe) oder BLOCK (abgelehnt).

Freigabe oder Blockierung

HITL-Anfragen werden per Matrix/E-Mail an den zuständigen Operator gesendet. Mobil genehmigbar. Vollständig protokolliert.

Ausführung + Audit

Nach Freigabe wird die Aktion ausgeführt. Token-Verbrauch, Gate-Entscheid und Ergebnis werden im Cost-Ledger protokolliert.

HITL-Gate Konfiguration (YAML)

# hitl-gate-definitions.yaml
# Gate für externe Kommunikation

gate_id: gate.external-comm-ai
name: "KI-generierte externe Nachricht"
level: HITL
trigger:
  - ai_generated: true
  - channel: external
approver: operator_admin
timeout_h: 4
fallback: BLOCK
evidence_required: true
audit_log: always

# Ergebnis: kein AI-Text geht extern
# ohne explizite Freigabe.

API-Integration

OpenAI-kompatibel. Einmal wechseln, überall nutzen.

Jede Anwendung die OpenAI-API versteht, funktioniert sofort mit dem IIO AI Hub.

Beispiel: Python OpenAI SDK → IIO AI Hub

# Nur base_url und api_key ändern
from openai import OpenAI

client = OpenAI(
    base_url="https://api.iio.space:4000",
    api_key="your-virtual-key"  # IIO Virtual Key
)

response = client.chat.completions.create(
    model="llama-3-70b-local",  # lokal, €0/Token
    messages=[{
        "role": "user",
        "content": "Analysiere diesen Vertrag..."
    }]
)

# → Automatisches Routing: lokal wenn möglich
# → HITL-Check je nach Gate-Konfiguration
# → Audit-Trail automatisch erzeugt

AI Hub ist in allen Paketen enthalten.

Starter

€29/Monat

3 Modelle · 1 Mio. Tokens · 5 User · Basis HITL

Starten

Professional

€290/Monat

26 Modelle · 11 lokal (€0/Token) · 50k Anfragen · alle HITL-Gates