Automatisiere Audio-Transkription auf macOS mit Whisper CLI und Automator

Lesedauer ca. 5 Minuten

Erst durch die praktische Anwendung von KI-Tools erkennt man ihren wahren Mehrwert und wie sie die Arbeit erleichtern können.

Ende letzten Jahres habe ich beschlossen, Generative KI immer mehr in meinen Arbeitsalltag zu integrieren. Jedes Mal, wenn ich eine manuelle Aufgabe ausführen musste, stellte ich mir die Frage: “Kann ein Sprachmodell das nicht einfacher und schneller erledigen?”

Warum das Ganze?

Täglich erscheinen neue Nachrichten über verschiedene KI-Tools. Ich habe viel Zeit investiert, um diese Tools zu verstehen. Die praktische Anwendung und Integration in meinen täglichen Aufgaben hilft mir, neue KI-Tools zu evaluieren. So kann ich zwischen bloßem Hype und echten Innovationen unterscheiden.

Heute möchte ich einen kleinen Workflow vorstellen, den ich gestern entwickelt habe. Wieder einmal fragte ich mich: “Kann ein LLM (Language Model) das erledigen?”

Diesmal ging es um die Transkription von WhatsApp-Sprachnachrichten.

In dieser Anleitung werde ich Dir zeigen, wie Du die Audio-Transkription auf einem macOS-Gerät mit Automator und dem Whisper CLI automatisieren kannst. Diese Lösung ermöglicht es Dir, Audiodateien schnell zu transkribieren, indem Du sie im Finder mit einem Rechtsklick auswählst und eine benutzerdefinierte Schnellaktion wählst.

Falls du das Tutorials nicht lesen möchtest und nur an dem Ergebnis interessiert bist. Schaue dir das Demo-Video an.

Demo Audio Transkribieren mit Automator und Whisper CLI

Voraussetzungen

Bevor wir beginnen, stelle sicher, dass Du Folgendes auf Deinem Mac installiert hast:

Mit Whisper CLI hast Du ein leistungsstarkes Open-Source-Tool zur Hand, das von OpenAI entwickelt wurde und Dir dabei hilft, Audiodateien präzise zu transkribieren. Dank fortschrittlicher KI-Modelle verwandelt Whisper gesprochene Sprache mühelos in Text. Egal, ob Du Interviews, Meetings oder Sprachnachrichten transkribieren möchtest – Whisper CLI unterstützt verschiedene Audioformate und speichert die Ergebnisse in Formaten wie txt, srt und vtt.

Beachte dabei, dass Whisper CLI genügend Hardware-Ressourcen benötigt, um optimal zu laufen. Stelle sicher, dass Dein Mac über ausreichend Rechenleistung und Speicher verfügt, um die Transkriptionen zügig durchführen zu können.

Größe	Parameter	Nur Englisches Modell	Multilingual Modell	Erforderlicher VRAM	Relative Geschwindigkeit
tiny	39 M	`tiny.en`	`tiny`	~1 GB	~32x
base	74 M	`base.en`	`base`	~1 GB	~16x
small	244 M	`small.en`	`small`	~2 GB	~6x
medium	769 M	`medium.en`	`medium`	~5 GB	~2x
large	1550 M	N/A	`large`	~10 GB	1x

Vergleich Speicher und Leistung per Modellgröße, Quelle: Whisper github

1. Whisper CLI: Du kannst Whisper über pip installieren.

• Öffne das Terminal und führe aus:

pip install git+https://github.com/openai/whisper.git

2. iTerm2: Ein Terminal-Emulator für macOS, den wir verwenden werden, um die Transkriptionsbefehle auszuführen.

• Lade iTerm2 hier herunter und installiere es.

iTerm2 ist nicht zwingend notwendig. Du kannst auch das Standard-Terminal von MacOS nutzen.

3. WhatsApp Desktop Applikation: Da wir unter dem Betriebsystem MacOS arbeiten, brauchst du auch die WhatsApp Desktop App.

Installiere WhatsApp Desktop und folge den Installationanweisungen.
Lade die Sprachnachricht herunter, die du transkribieren möchtest.

Erstelle die Schnellaktion in Automator

Öffne Automator

1. Öffne die Automator-App aus Deinem Programme-Ordner.
2. Klicke auf Neues Dokument.
3. Wähle „Quick Action“ und klicke auf Wählen.

Konfiguriere den Input für die Schnellaktion

1. Setze oben im Workflow-Bereich Der Workflow empfängt aktuelles auf Dateien oder Ordner.

2. Setze in auf Finder.

Hinzufügen von Aktionen zum Workflow

Aktion 1: Ausgewählte Finder-Objekte abrufen
1. Ziehe im Bibliotheksbereich links Ausgewählte Finder-Objekte abrufen in den Workflow-Bereich.

Aktion 2: Finder-Objekte filtern
1. Ziehe im Bibliotheksbereich Finder-Objekte filtern in den Workflow-Bereich.
2. Konfiguriere den Filter:
• Setze die Bedingung auf Art ist Music.

Aktion 3: AppleScript für Benutzereingabe und Validierung ausführen
1. Ziehe im Bibliotheksbereich AppleScript ausführen in den Workflow-Bereich.

2. Ersetze das Standard-AppleScript durch folgendes Skript:

on run {input, parameters}
	-- Ask the user for the output format
	set validFormats to {"txt", "srt", "vtt", "tsv", "json", "all"}
	set chosenFormat to ""
	
	repeat until chosenFormat is in validFormats
		set chosenFormat to text returned of (display dialog "Choose Output Format (txt, srt, vtt, tsv, json, all):" default answer "txt")
		if chosenFormat is not in validFormats then
			display alert "Invalid format. Please choose one of the following: txt, srt, vtt, tsv, json, all."
		end if
	end repeat
	
	-- Return the chosen format and the input files
	return {chosenFormat} & input
end run

Aktion 4: Shell-Skript zum Ausführen von Whisper CLI ausführen

1. Ziehe im Bibliotheksbereich Shell-Skript ausführen in den Workflow-Bereich.
2. Konfiguriere die Aktion Shell-Skript ausführen:
• Setze Shell auf /bin/bash.
• Setze Eingabe übergeben auf als Argumente.
3. Ersetze das Standardskript durch folgendes Skript:

# Lese die Benutzereingabe für das Ausgabeformat
output_format=$1
shift

# Unterdrücke Warnhinweise von Python
export PYTHONWARNINGS="ignore::UserWarning"

# Erhalte die ausgewählte Audiodatei (es sollte nur eine Datei vorhanden sein)
audio_file="$1"

# Bestimmt den Output Ordner und Dateinamen
output_dir=$(dirname "$audio_file")
output_file="$output_dir/$(basename "$audio_file" .${audio_file##*.}).${output_format}"

# Konstruiere den AppleScript-Befehl
apple_script='tell application "iTerm"
    activate
    try
        set currentWindow to (first window whose index is 1)
    on error
        create window with default profile
        set currentWindow to (first window whose index is 1)
    end try
    tell current session of currentWindow
        write text "whisper \"'$audio_file'\" --output_dir \"'$output_dir'\" --output_format '$output_format' && open \"'$output_file'\""
    end tell
end tell'

# Führe den konstruierten AppleScript-Befehl aus
osascript -e "$apple_script"

Speichern und Testen der Schnellaktion

1. Speichere Deine Schnellaktion:
• Gehe zu Ablage > Sichern (oder Cmd + S).
• Nenne sie zum Beispiel “Audio transkribieren mit Format” und klicke auf Sichern.

2. Teste die Schnellaktion:

• Finde eine Audiodatei im Finder.
• Klicke mit der rechten Maustaste (oder Ctrl-Klick) auf die Audiodatei.
• Gehe zu Schnellaktionen und wähle “Transcribe” (Oder den Namen deiner Quick Action).
• Gib das Ausgabeformat ein, wenn Du dazu aufgefordert wirst.
• Überprüfe, ob der Whisper-Befehl in iTerm2 korrekt für die ausgewählte Audiodatei ausgeführt wird.

Deine Transkription befindet sich direkt in dem Ordner mit dem gleichen Dateinamen der Audio-Datei, mit der jeweiligen Erweiterung (.txt, .json, etc.).

Wenn Du die Quick Action zum ersten Mal ausführst, wird das Whisper-Modell heruntergeladen. Dieser Vorgang kann etwas länger dauern, sodass die erste Transkription mehr Zeit in Anspruch nimmt. Nach dem einmaligen Download wird die Transkription zukünftiger Audiodateien deutlich schneller erfolgen.

Fazit

Du hast nun eine Schnellaktion auf macOS erstellt, die es Dir ermöglicht, Audiodateien mit dem Whisper CLI zu transkribieren. Dieser Workflow automatisiert den Prozess und macht es schnell und einfach, Transkriptionen für Deine Audiodateien zu erstellen. Wenn Du auf Probleme stößt, stelle sicher, dass alle Schritte korrekt befolgt wurden und dass sowohl Whisper CLI als auch iTerm2 ordnungsgemäß installiert sind.

Natürlich kannst du den Workflow in Automator auf deine Bedürfnisse anpassen. Zum Beispiel kannst du ein Hotfolder erstellen, der automatisch abgelegte Audio-Dateien erkennt und diese transkribiert!

Damit du schneller durchstarten kannst habe ich alles in ein git repository zur Verfügung gestellt. Schaue es dir gerne an und folge den Installationschritten.

Code anschauen

Falls das alles zu technisch ist für dich lade dire direkt den Whisper Automator Workflow herunter.

Apple Automator & Whisper