fyyd: Wortschatz

eazyliving | May 18, 2021

Die Transkripte des Coronavirus-Update auch hier durchsuchen

Das Coronavirus-Update des NRD-Info hat hier in Deutschland eine gewaltige Geschichte hinter sich und wie ich befürchte, auch noch eine vor sich.

Vom halbstündigen Einsteiger bis hin zum sicherlich meistgehörten Podcast Deutschlands, war es gar kein so weiter Weg. Und wo ein Podcast, ein erfolgreicher dazu, ist, da kommen Wünsche. Kapitelmarken wären der eine, Transkripte der nächste.

Und beide wurden uns, nunja, erfüllt. Es gibt alte Computerspiele, da war die Maussteuerung derart miserabel, das man lieber zur Tastatur zurückgegangen ist. Das hatte ein wenig was von Sabotage. So weit wollte ich hier nicht gehen, aber anstatt die mehr oder minder üblichen Wege für beides zu beschreiten, wurden beide Wünsche grundsätzlich erfüllt, aber leider schwer zugänglich.

Die Kapitelmarken finden sich als Zeitstempel mit Text in den Shownotes. Wenn gerade Dein Podcatcher schlau genug ist, das herauszufischen: Glückwunsch! Wenn nicht: Da ist der Button für Fast Forward!

Die Transkripte sind ähnlich erledigt worden, wenn auch mit sehr viel Liebe und Arbeit. Die nämlich liegen als manuell erstellte Mitschrift in einem schön gestalteten PDF vor. Das war es dann aber auch, denn das PDF ist zweispaltig, es gibt keine Zeitstempel. Das ist für sehbeinträchtigte Menschen schon einmal ein Problem, denn - dazu später mehr - die Textreihenfolge kann zum Problem werden hier. Was wir mit dem Auge sehen können, ist für einen Screenreader ggf. schon nicht mehr erkennbar oder führt zu Wortsalat.

Außerdem: Es ist PDF. Mehr Worte? Ja, denn die Suchfunktion über alle existierenden Episoden sieht genau so aus: Es ist ein PDF mit allen Texten, in denen man suchen kann. Den Ablauf stellt Euch bitte selbst vor.

Bitte versteht das nicht falsch, das CVU ist mit Sicherheit der Podcast der letzten Jahre, der dem Publikum, dem Radio(!) und auch Podcastmacherinnen zeigt, wo es langgehen kann und muss: Nimm Dir für Dein Thema so viel Zeit, dass Du am Ende alles gesagt hast, was Du für relevant hälst und das die Menschen weiterbringt. Wenn Du keine Ahnung hast, gib das zu, gebe Ausblicke, Handlungsmöglichkeiten, aber bleibe bei allem maximal transparent. Aber da wollte ich gar nicht hin. Der Podcast ist grandios und deshalb erfährt er viel Liebe, aber muss sich auch bieten lassen, ein paar Stöße in die richtige Richtung zu bekommen.

Wo aber der Berg nicht zur Prophetin kommt, geht der Brunnen eben zum Krug und deshalb habe ich mir ein paar Tage Zeit genommen und die Transkripte mal genauer analysiert. Sicher wäre mir für fyyd lieber gewesen, sauberen Text zu bekommen, den ich mehr oder minder direkt in die Datenbank jagen kann. Oder noch besser: Fertige Transkripte im Feed! Die aber bekomme ich nicht (vielleicht meine Nachfahren, es ist immerhin der ÖR) und deshalb war Handarbeit angesagt.

Die PDF sind technisch eigentlich nicht anspruchsvoll und an sich sauber gegliedert. Unter jedem Sprecherinnennamen kommt der dazugehörige Text. Es gibt wenig Beiwerk und die Folgennummer steht am Kopf der ersten Seite.

Da hört es aber auch schon wieder auf, schön zu sein. Das PDF hat im Namen keine Verknüpfung zur Episode irgendeiner Art. Außerdem muss das PDF ja auch noch in ein maschinenlesbares Format gebracht werden und da liegt der Punkt, an dem ich zwei Tage gearbeitet habe. Welches Format ich nach dem PDF habe, ist im Grunde egal, Hauptsache, ich kann dafür einen Parser schreiben. Ob das dann PS, Text, HTML, JSON oder XML ist, ist im Grunde völlig wurst, so lange ich erkennen kann, welcher Sprecher was spricht und das der Episode zuordnen kann.

Ich glaube, ich habe alle unter Linux verfügbaren Programme, die aus PDF irgendwas machen getestet. Ich hatte die Vermutung, ich käme mit HTML weiter, aber das trügte. Gerade diese Programme hielten den gewünschten Textfluss nicht ein, sodass Texte teils völlig durcheinander im Transkript ankamen. Dabei war ich da schon nach einem Tag fertig ;-)

Am Ende wurde es Text, bei dem ich die "Struktur" aus der relativen Position zu anderem Text in der Datei mit gutem Gewissen errate. Und so finden sich nun alle bisher erschienenen Folgen mit Transkript in der Datenbank, durchsuch und -anzeigbar. Ob Du nun im Podcast selbst suchen möchtest, oder bei einer Suche über das gesamte Verzeichnis fündig wirst: klappt beides.

Wer also schon immer mal das CVU nach einem Begriff fragen wollte: Bitte sehr, das könnte im Detail z.B. dieser Link sein. Ich spiele in der Tat mit dem schrägen Gedanken, nur für diesen Podcast einen eigenen Suchbefehl zu bauen. Aber das wäre vermutlich zu viel des Fantums.

Warum tu ich mir das an? Dafür gibt's viele Gründe, aber einer ist dieser: Ich habe letzte Woche meine erste Dosis #AZ bekommen und hatte das blöde Gefühl, ich könnte ein wenig was dafür tun. Und was kann ich? Genau! Also außer auf einem Bein tanzen und dabei rülpsen.

Und nun ist gut. Sucht, Ihr werdet finden!

P.S.: Das mit dem Schnellbefehl habe ich mal spontan gemacht: Anstelle der Podcast-ID oder des Slugs bei der Suche, werfe einfach ein "cvu" vor den Suchbegriff, dann wird nur im Coronavirus-Update gesucht