KI-Tool · Hate Speech Detection

Hate Speech Detection deutsch — Hassrede in Sekunden erkennen

Die Hasskompass-App klassifiziert deutschsprachige Texte in unter drei Sekunden — mit einer wissenschaftlich kalibrierten 4-stufigen Severity-Skala, transparenter Begründung und einem passenden Counter-Speech-Vorschlag. Trainiert auf einem eigenen Korpus mit über 1.200 annotierten Fällen.

So funktioniert es

  1. Text einfügen

    Kommentar, Direktnachricht oder Forenpost in das Eingabefeld einfügen — keine Anmeldung für die Demo nötig.

  2. KI-Analyse läuft

    Server-API ruft Claude (Anthropic) bzw. GPT (OpenAI) auf, der eigene linguistische Wrapper post-processed das Ergebnis. Laufzeit: 1 bis 3 Sekunden.

  3. Severity-Ergebnis + Begründung

    Sie erhältst eine Severity-Einstufung (1–4), eine sprachwissenschaftliche Begründung (Pragmatik, Implikatur, Topos) und einen Rabat-Plan-Schwellenwerttest.

  4. Counter-Speech-Vorschlag

    Auf Wunsch generiert das Tool 3 Strategie-Optionen für eine Antwort — Fakten, Empathie oder Humor — jeweils editierbar und mit Begründung der Strategiewahl.

Anwendungsfälle

Community-Management

Plattform-Moderation für Redaktionen, Verbände und Online-Communities. Skalierbare Erkennung statt manueller Vor-Sortierung.

Redaktionen

Kommentarspalten-Triage für Tageszeitungen und Online-Medien. Schweregrad 4 wird automatisch hochpriorisiert.

Schule und Bildung

Lehr-Demo im Klassenchat-Kontext: Schüler:innen sehen, was die KI als Hassrede einstuft und warum. Didaktisch reflektierbar.

Forschung

Korpus-Analyse für Bachelor-, Master- und Promotions-Projekte. Severity-Annotation reproduzierbar nach UN-Rabat-Plan-of-Action.

Hate Speech Detection ausprobieren

Demo kostenlos. Verarbeitung serverseitig in der EU, keine Browser-Cookies durch KI-Anbieter.

Hate Speech Detection testen

Häufige Fragen

Wie genau ist die KI-Erkennung?

Die App kombiniert ein generelles Sprachmodell (Claude bzw. GPT) mit einem eigenen linguistischen Wrapper, der auf einem Counter-Speech-Korpus mit über 1.200 annotierten Fällen kalibriert ist. Severity-Stufen werden nicht erraten, sondern entlang des UN-Rabat-Plan-of-Action plausibilisiert. Falsch-Positive bleiben möglich — wir machen das Ergebnis deshalb immer mit einer Begründung sichtbar, damit Menschen die Letztentscheidung treffen können.

Welche Sprachen werden unterstützt?

Primär Deutsch (inklusive Dialekt-Schreibweisen, Jugendsprache, Plattform-Slang). Englisch und Französisch sind technisch möglich, aber nicht auf einem deutschsprachigen Korpus kalibriert — Severity-Aussagen daher belastbarer auf Deutsch.

Wie ist der Datenschutz geregelt?

Verarbeitung serverseitig in der EU. Auftragsverarbeitung mit Anthropic, OpenAI, Supabase und Vercel. Keine Browser-Cookies durch KI-Anbieter. Eingaben werden nicht für Modell-Training verwendet. Vollständige Hinweise: hasskompass.de/datenschutz.

Wie geht das Tool mit Falsch-Positiven um?

Jedes Ergebnis kommt mit einer sprachwissenschaftlichen Begründung (Pragmatik, Topos, Implikatur) und einem konkreten Hinweis auf strittige Stellen. So bleibt die Entscheidung beim Menschen — die KI liefert eine fundierte Empfehlung, kein Urteil.

Was bedeutet welche Schweregrad konkret?

Stufe 1 = grenzwertig (unangenehm, aber nicht abwertend), Stufe 2 = abwertend (gegen Personen oder Gruppen gerichtet), Stufe 3 = klar diskriminierend (Menschenwürde betroffen), Stufe 4 = potenziell strafrechtlich relevant (§ 130 StGB Volksverhetzung, Bedrohung, Beleidigung). Mehr: hasskompass.de/app/schweregrad.

Severity-Skala

Die 4-stufige Bewertung im Detail — von grenzwertig bis strafrechtlich relevant.

Counter-Speech-Generator

Drei Strategie-Optionen pro Hass-Kommentar — wissenschaftlich abgeleitet.

Dog-Whistle-Erkennung

Kodierte Sprache der extremen Rechten mit 40+ Codes automatisch identifizieren.

Screenshot-Analyse

Bildschirmfotos aus WhatsApp, Telegram, Instagram per OCR + KI prüfen.