fyyd: Besser finden mit Transkripten

eazyliving | April 16, 2021

Jetzt auch Transkripte im Index

Ihr lieben Suchenden dort draußen, es gibt Neuigkeiten!

Anfang April hat Tim Pritlove auf Twitter verkündet, dass die Podcasts der Metaebene ab sofort und rückwirkend mit automatisch erzeugten Transkripten versehen wurden.

Ein schöner Startschuss und vor allem viel Material für mich zum Testen, denn das Thema Transkripte liegt ja nun schon länger in der Luft. Bisher allerdings hatten die ihren Weg nicht in den Feed gefunden, was nun endlich geändert wurde. Damit bekommt der Importer hier Zugriff auf die Daten und kann sie eindeutig den Episoden zuordnen.

Ich hatte schon eine Menge vorbereitet dafür, den Index der Suchmaschine habe ich schon vor einem halben Jahr dafür eingerichtet. Blöde nur, dass es dann ja doch immer anders kommt, weshalb es dann nicht zwei Tage sondern eher eine Woche gebraucht hat, bis sich das alles eingependelt hatte.

Aber wie sieht der Stand denn nun genau aus?

Zunächst sind die Transkripte vollständig in die Suchfunktion eingebaut. Ist die Suche also im Transkript einer Episode erfolgreich, wird das in der Trefferliste entsprechend angezeigt:

Von dort aus kommst Du per Klick auf den Zeitstempel ins vollständige Manuskript. Das ist natürlich erst einmal eine ziemliche wall of text, daran muss ich noch arbeiten, auch wenn ich noch keine gute Idee habe, wie ich das umsetzen kann.

Das betrifft übrigens auch andere Punkte in diesem Projekt. Während ich ein paar Ideen und Wünsche habe, die ich noch umsetzen möchte, habe ich mindestens ebenso viele Fragezeichen, die mir dabei durch den Kopf gehen. Heißt: Es könnte sich noch das eine oder andere am Frontend ändern.

Die Suche ist übrigens auch schon spezifisch für einen Podcast möglich. Endweder spezifizierst Du in der Suchanfrage den Podcast selbst, was die sauberste Methode ist:

podcast_slug:logbuch-netzpolitik luca app

schreibst den Podcastnamen "einfach" dazu, was schon mal schiefgehen kann:

logbuch netzpolitik luca app

oder Du suchst auf der Seite des Podcasts:

Der Fundort im Transkript wird Dir dann unter der jeweiligen Episode angezeigt:

Ein paar Anmerkungen noch zu der Qualität der Transkripte und der Suchergebnisse: Die Transkripte sind automatisch erzeugt und weisen viele Fehler auf. Da findet sich die "Astrid Zenaka" direkt neben "GNO Linox"… Das fordert natürlich auch eine gewisse Unschärfe in der Suche, an der ich aber noch arbeiten muss. Um genau zu sein, gibt es praktisch keine Unschärfe bisher. Ich hoffe, in den nächsten Tagen an der Front weiter zu kommen.

Es ist aber zu erwarten, dass die Qualität mit der Zeit deutlich steigen wird. Wenn man das heute mögliche mit dem "Zeug" vor drei Jahren vergleicht, dann ist das schon ein gewaltiger Unterschied. Hinzu kommt, dass man für die Transkripte zusätzliche Wörterbücher (Domänen) erzeugen kann, die auf die Themen der jeweiligen Podcasts zugeschnitten sind. Das ist dann natürlich etwas Arbeit für die jeweiligen Podcastmacherinnen, aber nunja, keine Arbeit, keine Kekse. Oder so.

Zum Zeitpunkt, an dem ich diesen Artikel schreibe, haben ca. 400 Folgen ein Transcript hier abgeliefert. Nicht viel, aber auch nicht nichts :)

Was muss mein Podcast dafür können?

Und wie kommen die Transkripte nun auch in Deinen Podcast? Im Detail kann ich Dir das gar nicht verraten, aber Du benötigst dafür aktuell den Podlove-Publisher, einen Account bei wit.ai und Deine Folgen müssen durch auphonic laufen. Das ist sicher nicht der zwingend nötige Workflow, das wird auch manuell möglich sein und mit hangeklöppeltem Feed, aber darüber weiß ich dann noch weniger :)

Damit die Transkripte hier von fyyd.de verarbeitet werden können, ist ein Tag im Feed nötig, der grob so aussieht:

<podcast:transcript url="URL-ZUM-TRANSCRIPT" type="application/json"/>

Das Format des JSON muss - aktuell noch zwingend - so aussehen:

{
  "segments": [
    {
      "body": "Hallo, herzlich willkommen zur Freakshow Ausgabe Nummer zweihundertachtundf\u00fcnfzig steht an,", 
      "endTime": 103.686, 
      "speaker": "tim", 
      "startTime": 97.353
    }, 
    {
      "body": "Oder? Habe ich mich vertan? Manchmal komme ich echt durcheinander mit dem der ganzen Z\u00e4hlerei,", 
      "endTime": 109.292, 
      "speaker": "tim", 
      "startTime": 104.095
    },

Solltest Du Transkripte für Deine Episoden erzeugt und eingebunden haben, dann schreib mir kurz auf Twitter oder per Mail, dann aktualisiere ich den Feed einmal komplett durch und auch alte Folgen werden dann im Suchindex mit den Transkripten versehen.

Abschließend: Das wird spannend. Seht mir nach, dass sicher noch nicht alles rund läuft an der Stelle, das wird noch besser werden. Ideen werden gerne angenommen, Kritik und Bugreports sowieso.