Pentacast

Pentacast sind themenspezifische Sendungen des Chaos Computer Club Dresden.

https://www.c3d2.de/podcast.html

subscribe
share






pentacast 33: Text information retrieval


Wie schön wäre es, wenn man sich nicht mehr selbst durch die unzähligen, länglichen Harry Potter Bücher quälen müsste, nur um zu wissen, warum auf 4-chan immer diese Witze über die Nase von Lord Voldemort gemacht werden.

Diesem Problem könnten in Zukunft die Jungs und Mädels aus der Wissenschaft der Text Information Retrieval abhilfe bringen. Sie probieren dem Computer Prosa-Texte zum Frass vorzuwerfen und aus diesen die Informationen für Computer verwertbar zu extrahieren.

Studiogast Hendrik Freund hat sich während eines Praktikums und seiner Diplomarbeit eingehend mit diesem Thema beschäftigt und gibt eine leicht verständliche Einführung in das Themengebiet.

Inhalte:

  • WP: Natural Language Processing (NLP)
  • WP: Information Retrieval
  • WP: Stochastik
  • 24C3: Linguistic Hacking: How to know what a text in an unknown language is about?
  • WP: Mehrwortterm
  • WP: Tagger
  • WP: Grammatik
  • WP(EN): Brill Tagger
  • Tree Tagger
  • WP(EN): Chunking
  • WP: Phrase
  • WP: Named entity
  • Word net
  • WP: RDF
  • WP: OWL
  • WP: Michael Ballack
  • WP: DBpedia
  • WP: SPARQL
  • WP: Taxonomie
  • WP: Stemming
  • WP: Lemmatizing
  • Natural Language Toolkit für Python
  • Apache OpenNLP
  • Apache UIMA
  • WP: Hidden Markov Modell
  • WP: Log Likelihood
  • WP: Morphem
  • Porter stemmer
  • Tagger for German Language
  • Dirk Lewandowski: Web Information Retrieval


fyyd: Podcast Search Engine
share








 July 19, 2011  n/a