Automatische Inhaltsmoderation für Kommentare mit AI

Die automatische Inhaltsmoderation analysiert Kommentare unter Beiträgen in Echtzeit mithilfe von KI. Wird ein potenziell unangemessener Kommentar erkannt, erhalten die hinterlegten Empfänger:innen in der Admin Console automatisch eine E-Mail-Benachrichtigung. So können Channel-Administrator:innen schnell reagieren und bei Bedarf Maßnahmen ergreifen.

Voraussetzungen

Damit die automatische Inhaltsmoderation funktioniert, muss die Funktion „Kommentare melden" in der Admin Console aktiviert und mindestens eine Empfänger-E-Mail-Adresse hinterlegt sein. Weitere Informationen findest du im Artikel Inhalte melden — Einrichtung in der Admin Console.

Die automatische Inhaltsmoderation wird von deinem Customer Success Manager aktiviert und kann nicht selbst in der Admin Console eingeschaltet werden.

Wie funktioniert es?

Sobald ein Kommentar unter einem Beitrag veröffentlicht wird, wird dessen Inhalt automatisch von einer KI analysiert. Die KI prüft den Kommentar auf folgende Kategorien:

  • Hassrede — Inhalte, die Personen oder Gruppen aufgrund von Merkmalen wie Herkunft, Religion oder Geschlecht angreifen
  • Gewalt — Inhalte, die Gewalt androhen, verherrlichen oder dazu aufrufen
  • Sexuelle Inhalte — sexuell explizite oder unangemessene Inhalte
  • Selbstverletzung — Inhalte, die Selbstverletzung oder Suizid thematisieren oder dazu aufrufen

Wird ein potenzieller Verstoß erkannt, wird automatisch eine E-Mail an die hinterlegten Empfänger:innen gesendet — dieselben, die auch manuelle Meldungen von Kommentaren erhalten.

Was steht in der E-Mail?

Die Benachrichtigungs-E-Mail trägt den Betreff „Flagged Comment" und enthält folgende Informationen:

  • Erkannt durch — „Automatic Content Moderation"
  • Organisation — Name der Organisation
  • Channel — Channel, in dem der Beitrag veröffentlicht wurde
  • Beitragstitel — Titel des Beitrags
  • Link zum Beitrag — Direktlink zum betroffenen Beitrag
  • Verfasser:in des Kommentars — Name der Person, die den Kommentar geschrieben hat
  • Kommentar — vollständiger Inhalt des Kommentars
  • Verstöße — erkannte Kategorien mit Schweregrad (z. B. HATE_SPEECH – Severity: 2/10)

Die E-Mail wird in englischer Sprache verschickt.

Was bedeutet Severity?

Severity gibt den Schweregrad des erkannten Verstoßes an, auf einer Skala von 0 bis 10. Je höher der Wert, desto schwerwiegender der Inhalt.

Welche Maßnahmen können ergriffen werden?

Die automatische Moderation erkennt und meldet Inhalte — sie löscht oder verbirgt Kommentare nicht automatisch. Nach Erhalt der E-Mail können Channel-Administrator:innen den Kommentar überprüfen und bei Bedarf löschen.

Hinweis: Nur Channel-Administrator:innen können Kommentare löschen. Anstelle des gelöschten Kommentars wird „Dieser Kommentar wurde entfernt" angezeigt.

Häufig gestellte Fragen

Werden auch Beiträge und Chat-Nachrichten automatisch moderiert?
Aktuell werden nur Kommentare unter Beiträgen automatisch analysiert. Die Erweiterung auf weitere Inhaltstypen ist für die Zukunft geplant.

Kann es zu Fehlalarmen kommen?
Ja, wie bei jeder KI-gestützten Erkennung kann es vorkommen, dass Inhalte fälschlicherweise als problematisch eingestuft werden. Die endgültige Entscheidung liegt immer bei den verantwortlichen Personen.

In welchen Sprachen funktioniert die Erkennung?
Die KI unterstützt die Erkennung in mehreren Sprachen, darunter Deutsch und Englisch.

Kann ich die automatische Moderation selbst aktivieren oder deaktivieren?
Nein, die Funktion wird von deinem Customer Success Manager aktiviert. Wende dich an dein CSM-Team, wenn du die Funktion nutzen möchtest.

War dieser Beitrag hilfreich?

0 von 0 fanden dies hilfreich

Haben Sie Fragen? Anfrage einreichen