Kompensation Für Das Tierkreiszeichen
Substability C Prominente

Finden Sie Die Kompatibilität Durch Zodiac -Zeichen Heraus

Die besten automatischen Transkriptionstools für Journalisten

Technik & Werkzeuge

Siri ist gerade sechs Jahre alt geworden. Alexa ist gerade drei Jahre alt geworden. Wenn wir unsere Telefone nach dem Wetter in Albuquerque fragen und einen Plastikzylinder in unseren Wohnzimmern zwingen können, die Washington Post laut vorzulesen, warum transkribieren wir dann immer noch Interviews von Hand?

Nun, es stellt sich heraus, dass wir das nicht wirklich müssen. Automatische Transkriptionstools sind schon seit einiger Zeit auf dem Markt und sie werden endlich gut. Es dauert jetzt nur noch wenige Minuten und kostet ein paar Dollar, Audio- oder Videodateien auf eine Website hochzuladen und ein ziemlich umfassendes Transkript zu erhalten.

Aber wie bei allen Werkzeugen sind einige besser als andere. Wir haben acht der beliebtesten Transkriptionstools für Journalisten getestet (oder versucht zu testen – dazu später mehr), darunter Drachen Diktat , Glücklicher Schreiber , oTranskribieren , rekordverdächtig , Rev , Sonix , Trin und YouTube. Wir haben jedes Tool durch eine Vielzahl von Szenarien aus der realen Welt laufen lassen und damit experimentiert, wie sich jedes gegen die typische Verwendung eines Journalisten schlägt.

Obwohl keines der Tools perfekt war, verdrängte eines die anderen als das beste in der Kategorie.

Unsere Wahl
Eine Kombination aus Genauigkeit, Funktionen und Benutzerfreundlichkeit machen Trint zur besten Wahl für die automatische Transkription für Journalisten. Obwohl es nicht das genaueste, funktionsreichste oder billigste Tool war, das wir ausprobiert haben, helfen ihm seine Tools zur Transkriptbearbeitung und die Fähigkeit, sich etwas nahtloser in den Workflow eines Journalisten einzufügen, seine Konkurrenten zu verdrängen. Lesen Sie weiter, um zu sehen, warum.

Das Experiment
Wie Sie sehen werden, sind die Genauigkeitsraten dieser Tools gering. Das liegt daran, dass wir unser Bestes versucht haben, sie zu verwirren.

Um ein breites Spektrum an Personen, Stimmen und Akzenten widerzuspiegeln, haben wir zunächst unser Beispielaudio mit vier Teilnehmern aufgenommen. Dazu gehörten:

  • Alexios Manzarlis , Poynter-Fakultät und Direktor des International Fact-Checking Network, der aus Rom stammt und sich selbst als lispelnd und „einige lustige Wörter, die britische, italienische und seltsame amerikanische Akzente mischen“ beschrieb.
  • süße Blumensträuße , Programmmanager des International Fact-Checking Network, der im September aus Mexiko-Stadt nach Poynter kam
  • Kristen Hase , eine Reporterin bei Poynter, die findet, dass sie sich „leicht wie ein Talmädchen“ anhört, wenn sie sich selbst auf Aufnahmen zuhört
  • Ich, und obwohl Kristen sagte, dass ich einen „Büffelakzent“ habe, denke ich, dass meine Neigung zu murmeln, zu schnell zu sprechen und Teile von Wörtern zu überspringen, wahrscheinlich eine größere Herausforderung für Transkriptionen darstellt (Sich selbst in Erwartung der Transkription aufzunehmen, führt eindeutig zu einem Betrachtung.)

Kristen kam über Google Hangouts/YouTube Live zu uns ( Offenlegung: Ein Zuschuss von Google News Lab finanziert meine Stelle teilweise ), vor der die meisten automatischen Transkriptionstools offen warnen. Audio von einem Telefon- oder Video-Chat scheint allgemein schwierig für sie zu sein.

Um die Algorithmen noch mehr zu quälen, lesen wir Passagen auch viel schneller als wir normalerweise sprechen, Dulce und Alexios sprechen eine Vielzahl von Fremdsprachen (Italienisch, Spanisch, Französisch und Griechisch), wir äußern so viele Eigennamen wie möglich (Apalachicola , Michael Oreskes und verschiedene griechische Inseln, um nur einige zu nennen), wurden kreativ mit Urban Dictionary (a Handkoffer von Paul Manafort und ein grobes Wort, das den Stand seiner Rechtslage beschreibt) und redeten ziemlich häufig miteinander.

Wir nahmen unseren 14-minütigen Test in Poynters Webinar-Studio auf und wurden durch das Geräusch von mindestens einem lauten Flugzeug über uns (ein paar Blocks entfernt befindet sich ein Flughafen), einem Notfallfahrzeug und dem Geschrei von Kristens Telefon unterbrochen.

Wir haben den Ton auf drei Arten aufgenommen:

  • Mit einer Zoom H4nPro Handmikrofon, zwischen uns platziert
  • Mit meinem iPhone 6S Plus, das die Recordly-App zum Aufnehmen verwendet, neben dem Zoom platziert
  • Mit einem privaten YouTube Live, so kam Kristen zu uns

Wir haben dann die Audiodaten in jedes Tool hochgeladen und festgehalten, wie lange die Transkription jedes einzelnen gedauert hat. Wir normalisierten die resultierenden Transkripte mit Microsoft Word, entfernten Zeitstempel und stellten sicher, dass die Sprechernamen kongruent waren. Zur Kontrolle habe ich das Audio selbst transkribiert (mit oTranscribe) und dann mehrmals angehört, um es auf absolute Genauigkeit zu überprüfen. Wir haben auch Rev ausprobiert, einen kostenpflichtigen Dienst, der menschliche Transkriptoren anstelle von Algorithmen verwendet, um zu sehen, wie er sich schlägt.

Wir haben eine Vielzahl von Dokumentenvergleichstools getestet, um zu sehen, welches am besten funktioniert, und uns entschieden Copyscape als die vernünftigste Option. Wir haben die von den Tools und Diensten generierten Transkripte mit dem zu 100 Prozent korrekten Transkript verglichen, das ich mit oTranscribe erstellt habe.

Ein paar zusätzliche Anmerkungen:

  • Das Audio vom Zoom erwies sich als die beste Qualität, daher haben wir es für die meisten unserer Tests verwendet. Die Recordly-App scheint kein von anderen Quellen aufgenommenes Audio zu akzeptieren, das ist also eine Ausnahme von diesem Prozess. Wir haben das Zoom-Audio auch nicht auf YouTube hochgeladen, sondern uns stattdessen auf das Audio der YouTube Live-Aufnahme verlassen. Der Äpfel-und-Birnen-Vergleich macht dieses Experiment weniger als wissenschaftlich, sondern mehr im Einklang damit, wie Journalisten diese Tools tatsächlich in der realen Welt verwenden würden.
  • Obwohl es ein beliebtes Tool ist, konnten wir Dragon Dictation nicht testen, da es unter iOS 11 nicht funktioniert. Wir werden diese Rezension aktualisieren, wenn und falls der Entwickler dieses Problem behebt.
  • Wir haben uns vor dem Testen an keines dieser Unternehmen gewandt, daher gab es keine besondere Behandlung oder Back-End-Fingerabdruck von Transkripten. Trint, Sonix und Recordly bieten begrenzte Freiminuten für neue Benutzer an, also haben wir diese für das Experiment genutzt. Wir haben die Kreditkarte eines Nicht-Reporter-Kollegen für Happy Scribe verwendet und Poynter nicht erwähnt, da ich in der Vergangenheit mit seinen Gründern korrespondiert habe. Und wir haben den vollen Preis für Revs menschliche Transkription bezahlt. Der Untertiteldienst von YouTube und oTranscribe sind immer kostenlos.
  • Es gibt viele, viele weitere automatische Transkriptionstools, die wir nicht in diese Überprüfung aufgenommen haben. Wir haben versucht, uns auf diejenigen zu konzentrieren, nach denen uns Journalisten gefragt haben. Wenn Sie der Meinung sind, dass wir zu Unrecht eine übersprungen haben, lassen Sie es uns wissen und wir werden die Bewertung aktualisieren.

Transkriptqualität (Gewinner: Happy Scribe)

Genauigkeitsdiagramm

Es scheint, dass die Menschen, die sich Sorgen um den Aufstand der künstlichen Intelligenz machen, noch mindestens ein paar Jahre Zeit haben, um sich vorzubereiten, da der eine menschliche Transkriptionsdienst, den wir getestet haben, die automatischen Transkriptionen bei weitem übertroffen hat.

Rev erhielt eine Genauigkeitsbewertung von 82 Prozent, wobei der menschliche Übersetzer meist keine Fremdsprachen (was, um fair zu sein, ein separater Service ist), ein paar Eigennamen, etwas Übersprechen, ein paar Slangwörter und Gemurmel zu verstehen versäumte. Obwohl die anderen Tools diese Dinge auch meistens übersehen haben, haben die menschlichen Transkriptoren bei Rev zumindest Dinge wie „[unverständlich]“ und „[Übersprechen]“ und „[Fremdsprache]“ notiert, die nützliche Platzhalter für spätere Korrekturen waren.

Selbst mit den fehlenden Bits ist das Rev-Transkript vollständig lesbar und kohärent. Wenn Sie beim ersten Gespräch nicht dabei waren, können Sie den Kern dessen, worüber wir gesprochen haben, einfach durch Lesen verstehen.

Die nächstgenaueste Transkription war YouTube. Die Video-Hosting-Site erstellte automatisch Untertitel für unser YouTube-Live-Video, die zu 72 Prozent genau waren. Aber selbst bei einem Rückgang der Gesamtqualität um nur 10 Prozent ist das Transkript deutlich schlechter lesbar als das von Rev, da YouTube keine Interpunktion oder Sprechersegmentierung bietet. Die Bildunterschriften bestehen aus einem massiven Textblock. Ohne es mit dem Audio zu koppeln, wäre es für jemanden, der nicht Teil des Gesprächs war, fast unmöglich, unser Gespräch zu verstehen.

Es gibt andere Nachteile der Angebote von YouTube, aber wir werden darüber sprechen, wenn wir zu den Funktionen kommen.

Happy Scribe erwies sich mit einer Genauigkeit von 62 Prozent in unserem Experiment als das genaueste dedizierte nichtmenschliche Transkriptionstool. Das Tool warnt auf seiner Upload-Seite, „starke Hintergrundgeräusche zu vermeiden“, „starke Akzente zu vermeiden“, „Skype- und Telefoninterviews zu vermeiden“ und „das Mikrofon in der Nähe des Sprechers zu halten“, was wir alle pflichtbewusst ignoriert haben.

Das Transkript ist an den Stellen, an denen ich gesprochen habe, nahezu genau, insbesondere wenn es kein Übersprechen gab und ich keine Eigennamen verwendete, aber ich hatte ziemliche Probleme mit der Transkription von Dulce, Kristen und Alexios. An einigen Stellen wurden verschiedene Sprecher in neue Absätze unterteilt, an anderen jedoch nicht. Das gesamte Transkript variiert zwischen an manchen Stellen völlig kohärent und an anderen bizarr inkohärent, beispielsweise als Alexios sagte: „Lass mich das Urban Dictionary öffnen, und wir können einige davon durchgehen“ als „Ich meine, selbst im Urban Dictionary sind Mädchen nah dran .“

Trint lieferte ähnliche Ergebnisse mit einer Genauigkeit von 61 Prozent. Es hat an vielen der gleichen Stellen durcheinander gebracht, mit Akzenten, Audio von YouTube und Abschnitten mit Übersprechen oder leisem Sprechen herumgespielt. Es wurde jedoch nicht genau so falsch transkribiert wie Happy Scribe. Der Urban Dictionary-Satz von oben erschien als „Ich meine, sogar im Urban Dictionary können wir diese durchgehen.“

Insgesamt ist das Transkript von Trint etwas einfacher zu lesen als das von Happy Scribe, da es Sprecher besser voneinander unterscheidet und sie in neue Absätze aufteilt. Es ist nicht perfekt, aber es fügt viel Klarheit hinzu, wenn es funktioniert.

Sonix erwies sich mit 50 Prozent als der zweitgenaueste. Sonix funktionierte etwas besser als Happy Scribe und Trint, wenn ein einzelner Sprecher laut sprach. Aber jede Menge Übersprechen, Hintergrundgeräusche oder sogar Gelächter – alles Dinge, die wahrscheinlich bei jeder realen Verwendung des Tools auftreten werden – schien es mehr zu verwirren als die anderen. Es erfasste den Satz des Urban Dictionary als „to Open in the urban dictionary und wir können einige davon durchgehen“.

Wie die anderen Tools versuchte Sonix, die Sprecher in verschiedene Absätze aufzuteilen, aber es schien etwas schlechter darin zu sein.

Recordly war mit einer Genauigkeit von 48 Prozent das am wenigsten genaue der automatischen Transkriptionstools. Es hat den Satz des Urban Dictionary wie folgt festgehalten: „Lass mich dieses Urban Dictionary öffnen, und wir können. Gehen Sie einige durch“, was nicht schlecht ist, aber dieser Textabschnitt ist nicht repräsentativ für den Rest des Transkripts. Wie YouTube ist auch das Transkript von Recordly ein riesiger Textblock. Im Gegensatz zu YouTube fügt es Satzzeichen hinzu, wenn auch seltener und mit geringerer Genauigkeit als die anderen Tools.

Das Recordly-Transkript ist außerhalb des Kontexts am wenigsten hilfreich.

Insgesamt kam das beste Transkript von meiner eigenen Hand mit oTranscribe. Rev stellte sich als das beste Transkript heraus, das ich nicht selbst transkribieren musste. Aber dies ist eine Überprüfung von automatischen Transkriptionswerkzeugen, und in dieser Kategorie hat Happy Scribe Trint nur knapp verdrängt, um die Nase vorn zu haben.

Funktionen (Gewinner: Sonix)
Einige Dinge scheinen Industriestandards für automatische Transkriptionstools zu sein. Die Fähigkeit, hochgeladenes Audio abzuspielen, ist offensichtlich. Alle Tools ermöglichen es Benutzern, Transkripte in verschiedenen Formaten zu exportieren.

Die browserbasierten Tools (also alle außer Recordly) bieten ebenfalls eine gemeinsame Suite. Bei allen können Benutzer auf verschiedene Punkte im Text klicken und direkt zu diesem Teil der Aufzeichnung springen. Sie alle haben Optionen, um Audio mit einer langsameren Geschwindigkeit wiederzugeben (mit Tastenkombinationen oder durch Herumfummeln an den Einstellungen), Transkripte manuell zu bearbeiten, Videos zusätzlich zu Audio hochzuladen und Transkripte für die spätere Verwendung zu speichern.

Trint geht noch einen Schritt weiter und bietet eine visualisierte Wellenform des Audios am Ende des Transkripts, die Benutzer nach Belieben überspringen können. Es verfügt auch über integrierte Tools zum Suchen und Ersetzen, Hervorheben oder Durchstreichen von Text. Benutzer können dem Tool eine Liste von Rednern hinzufügen und jedem Absatz ihren Namen hinzufügen. Es hat auch eine praktische Funktion, um ein Transkript mit einem Klick per E-Mail zu versenden.

Sonix bietet all diese Tools (mit Ausnahme der interaktiven Wellenform) und noch einige mehr. Am hilfreichsten sind „Vertrauensfarben“, die Wörtern, bei denen Sonix weniger zuversichtlich ist, verschiedene Farben zuordnen; ein Bewerter der Audioqualität, der Ihnen sagt, wie zuversichtlich Sonix in Bezug auf seine Transkription ist; und automatisierte Sprecheridentifikation, eine Beta-Funktion, die versucht, verschiedene Sprecher zu identifizieren und ihnen IDs zuzuweisen.

In unserem Test hat Sonix nur zwei verschiedene Lautsprecher identifiziert, daher erfordert dieses Tool etwas Arbeit, ist aber dennoch enorm hilfreich.

Recordly, die einzige App (nur iOS) im Bunde, bietet die wenigsten Funktionen. Es ist so ziemlich eine Rekord-und-Warten-Erfahrung. Das Transkript wird in einem ähnlichen Format wie die integrierte Notizen-App von Apple mit eingeschränkter Bearbeitungsfunktion bereitgestellt. Es ermöglicht Benutzern auch, Audio oder Text in eine andere App zu exportieren.

Obwohl die Suchen-und-Ersetzen- und Wellenformfunktionen von Trint beim Korrigieren von Transkripten hilfreich sind, fügen die Funktionen von Sonix dem Transkriptionsprozess eine wichtige Transparenz hinzu. Und obwohl die Beta-Version der Sprecheridentifikation nicht ganz zuverlässig ist, handelt es sich um ein ehrgeiziges Tool, das von hier aus nur noch besser werden sollte.

Timing (Gewinner: Happy Scribe, Trin und rekordverdächtig)

Zeitdiagramm

Hier glänzt die automatische Transkription. Alle Tools lieferten ein Transkript in weniger Minuten als die Länge der von uns eingereichten Audiodatei. Der Unterschied zwischen Happy Scribe (fünf Minuten), Trint (sechs Minuten) und Recordly (sechs Minuten) war zu vernachlässigen, aber Sonix brauchte etwas länger (11 Minuten). (Aktualisierung: Ein Vertreter von Sonix hat sich gemeldet, um zu sagen, dass seine Geschwindigkeit mit den anderen Tools übereinstimmt, wenn die Sprecheridentifikationsfunktion deaktiviert ist.) In einer realen Umgebung kann dies ein entscheidender Unterschied sein, insbesondere bei längeren Transkriptionen.

YouTube ist hier ein bisschen mysteriös. Bei diesem Transkript dauerte es nur wenige Minuten, bis die automatischen Untertitel angezeigt wurden. In früheren Erfahrungen haben wir festgestellt, dass die Zeit, die es dauert, bis sie erscheinen, ziemlich unterschiedlich sein kann. Da YouTube nicht wirklich dafür gedacht ist, auf diese Weise verwendet zu werden, sind wir nicht sicher, wie lange es normalerweise dauert.

Es dauerte ungefähr vier Stunden und 15 Minuten, bis Revs menschliche Transkriptoren ihr Transkript fertiggestellt hatten. Ich habe ungefähr die Hälfte davon gebraucht, um es mit oTranscribe selbst zu machen, aber nicht ohne mehrere Pausen, Spotifys Tiefer Fokus Playlist und zwei Gallonen Kaffee.

Preise (Gewinner: rekordverdächtig)

Kostendiagramm

Sie können nicht kostenlos schlagen (YouTube, oTranscribe), aber wenn es um die dedizierten automatischen Transkriptionstools geht, variieren die Kosten stark. Um den besten Preis zu ermitteln, müssen Sie berücksichtigen, wie oft Sie das Tool verwenden werden.

Sonix ist das teuerste, mit einem Basisplan ab 15 $ pro Monat plus 8 $ für jede Stunde transkribiertes Audio. Aber das Tool bietet satte 33 Prozent Rabatt für die jährliche statt monatliche Zahlung.

Trint bietet auch Pläne ab 15 US-Dollar pro Stunde für Pay-as-you-Upload-Transkriptionen oder 40 US-Dollar pro Monat für bis zu drei Stunden transkribierte Audiodateien an. Zusätzliche Transkriptionen kosten knapp über 13 $ pro Stunde.

Happy Scribe kostet pauschal 10 Cent pro Minute hochgeladener Audiodaten. Für weniger mathematisch veranlagte Typen sind das 6 US-Dollar pro Stunde.

Mit mageren 2 US-Dollar pro Stunde, wobei die erste Stunde kostenlos ist, ist Recordly bei weitem die günstigste automatische Transkriptionsoption.

Es überrascht nicht, dass die menschlichen Transkriptoren bei Rev mehr kosten als die anderen Tools. Die Transkription unseres 13-minütigen Clips kostete 14 US-Dollar, und wir zahlten 3,50 US-Dollar mehr für Zeitstempel. Dennoch lassen uns die geringen relativen Kosten für die damit verbundenen Arbeitsstunden fragen, wo auf der Welt sich Revs Transkriptoren befinden und wie gut sie entlohnt werden.

Benutzerfreundlichkeit (Gewinner: Trinität)
Keines dieser Tools ist schwierig zu bedienen. Sie laden jeweils eine Datei hoch (oder nehmen im Fall von Recordly Audio damit auf) und einige Zeit später erhalten Sie einen Link zu einem bearbeitbaren Transkript.

Trint geht einen großen Schritt über das Hochladen von Dateien hinaus und akzeptiert Audio oder Video aus einer Vielzahl von Quellen, einschließlich Dropbox, Google Drive und FTP, und ermöglicht Benutzern sogar, einfach einen Link einzugeben. Dies ist einzigartig unter den von uns getesteten Tools. Trint stellt auch ein paar hilfreiche Fragen zu Hintergrundgeräuschen, Übersprechen und mehr, bevor der Upload beginnt. Es wird keine Aufnahme reparieren, ist aber ein hilfreiches UX-Nicken, das den Benutzern beibringt, wie sie in Zukunft mehr transkribierbares Audio aufnehmen können.

Happy Scribe, Rev, Sonix und Trint senden alle E-Mails, wenn die Transkription fertig ist, sodass Sie nicht herumsitzen und auf den Bildschirm starren müssen.

Das Endergebnis
Es ist weder die billigste noch die insgesamt genaueste verfügbare Transkriptionsoption, aber Trint hat einen Sieg als das beste Allround-Tool der von uns getesteten herausgebracht.

Das Unternehmen, das etwas mehr als ein Jahr alt ist und von der Knight Foundation finanziert wurde (Haftungsausschluss: Poynter auch erhält Finanzierung durch Ritter) und Googles Digital News Initiative, bietet die beste Gesamtkombination aus Funktionalität, Genauigkeit und Benutzerfreundlichkeit.

Nur die automatische Untertitelungsfunktion von YouTube, die eine Genauigkeitsrate von 72 Prozent erzielte, schnitt bei der algorithmusgesteuerten Transkription deutlich besser ab als Trint. YouTube ist jedoch nicht für die Art der Transkription konzipiert, die Journalisten täglich benötigen, und bietet keinerlei Bearbeitungsfunktionen.

Obwohl das junge Startup Happy Scribe in unseren Genauigkeitstests mit einer Rate von 62 Prozent etwas besser abschneidet und etwa ein Drittel des Preises von Trint kostet, fehlen ihm viele der zusätzlichen Funktionen, die Trint nützlich machen. Das Hochladen aus vielen Quellen, das Suchen und Ersetzen von Text und die Sprecheridentifikation sind kleine, aber wichtige Workflow-Tools. Wenn Sie nur nach einer schnellen und schmutzigen Abschrift suchen, ist Happy Scribe möglicherweise der richtige Weg.

Und obwohl es stimmt, dass seine 61 Prozent alles andere als perfekt sind, waren unsere Tests etwas schwieriger als die meisten Anwendungen in der realen Welt.

Wir haben auch Rev, einen menschlichen Übersetzungsdienst, und oTranscribe getestet, das praktische Tools für Journalisten bietet, um Audio selbst zu transkribieren. Mit 1 $/Minute an transkribiertem Audio fanden wir, dass Rev für den durchschnittlichen Journalisten zu teuer ist, um es regelmäßig zu verwenden. Und obwohl oTranscribe praktisch war, löst es nicht die Langeweile und den Zeitaufwand beim Transkribieren.

In Anbetracht typischer Anwendungen ist Trint das beste Allround-Tool für automatische Transkription für Journalisten.

Korrektur: Wir haben zuvor berichtet, dass Sonix dies nicht tut Angebot Werkzeug suchen und ersetzen, aber es tut es tatsächlich. Wir entschuldigen uns, dass wir es verpasst haben.

Erfahren Sie mehr über Journalismus-Tools mit Try This! — Werkzeuge für den Journalismus. Versuche dies! wird angetrieben von Google News-Lab . Es wird auch von der unterstützt Amerikanisches Presseinstitut und das John S. und James L. Knight Foundation