Engineering Kiosk

Der Engineering Kiosk ist der deutschsprachige Software-Engineering-Podcast mit Wolfgang Gassler und Andy Grunwald rund um die Themen Engineering-Kultur, Open Source, Menschen, Technologie und allen anderen Bereichen, die damit in Verbindung stehen.Wir, Wolfgang Gassler und Andy Grunwald, sind beide Software Engineers und Engineering Manager, die sich bei ihrer beruflichen Laufbahn bei @trivago kennengelernt haben.Zusammen bringen sie über 30 Jahre Tech-Erfahrung an das Mikrofon und lassen dabei zwei Welten aufeinander prallen: Die Österreichische und akademische Welt von Wolfgang mit der praktischen und deutschen Ruhrpottschnauze von Andy.Ziel des Podcasts ist der Austausch zu (Senior) Engineering Themen und ggf. etwas Selbsttherapie ????Dieser Podcast ist für alle Software Engineers und -Enwickler, Teamleads, Open-Source- und Indie Hacker, Leute aus dem Tech-Sektor (Product Manager, Data Scientist, etc.) und alle weiteren Engineering-Interessierten.Feedback an stehtisch@engineeringkiosk.dev oder über Twitter @EngKiosk ( https://twitter.com/EngKiosk )

https://redcircle.com/shows/engineeringkiosk

subscribe
share






episode 118: #118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking


Explain my like i am five: Die Grundlagen moderner Suchen

Wir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”).

Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil.

Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden.


**** Diese Episode wird von der HANDELSBLATT MEDIA GROUP gesponsert.

Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen, die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements, 15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat leisten sie einen wichtigen Beitrag zur Orientierung und Meinungsbildung in den Bereichen Wirtschaft und Politik und machen damit einen ausgezeichneten Job.

Wenn du Teil dieser Mission sein möchtest, schau auf https://engineeringkiosk.dev/handelsblatt vorbei und werde ein Teil der HANDELSBLATT MEDIA GROUP.

********


Das schnelle Feedback zur Episode:

???? (top) ???? (geht so)


Feedback (gerne auch als Voice Message)

  • EngKiosk Community: https://engineeringkiosk.dev/join-discord 
  • Email: stehtisch@engineeringkiosk.dev
  • LinkedIn: https://www.linkedin.com/company/engineering-kiosk/Mastodon: https://podcasts.social/@engkiosk
  • Twitter: https://twitter.com/EngKiosk


Links
  • r/explainlikeimfive: https://www.reddit.com/r/explainlikeimfive/
  • Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist die Komplexität von Algorithmen im Entwickler-Alltag relevant?: https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/
  • ElasticSearch: https://www.elastic.co/de/elasticsearch
  • OpenSearch: https://opensearch.org/
  • Apache Lucene: https://lucene.apache.org/
  • Apache Solr: https://solr.apache.org/
  • meilisearch: https://www.meilisearch.com/
  • Alogolia: https://www.algolia.com/d
  • HackerNews indexiert von Algolia: https://hn.algolia.com/
  • Term Frequency-Inverse Document Frequency: https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9F
  • Bidirectional Encoder Representations from Transformers (BERT): https://en.wikipedia.org/wiki/BERT_(language_model)
  • Engineering Kiosk Episode #116 KI unterstützte Software Entwicklung: Ein Reality Check mit Birgitta Böckeler von Thoughtworks: https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/
  • Learning to Rank: https://en.wikipedia.org/wiki/Learning_to_rank
  • Vector Space Model: https://en.wikipedia.org/wiki/Vector_space_model
  • Inverted Index: https://en.wikipedia.org/wiki/Inverted_index
  • N-Gramm: https://de.wikipedia.org/wiki/N-Gramm
  • Suffixbaum: https://de.wikipedia.org/wiki/Suffixbaum
  • Trie (Präfixbaum): https://de.wikipedia.org/wiki/Trie


Sprungmarken

(00:00:00) Buzzword-Bingo bei modernen Suchen

(00:04:40) Die Komplexität moderner Such-Systeme

(00:05:55) Die Handelsblatt Media Group (Werbung)

(00:07:00) Die Komplexität moderner Such-Systeme

(00:09:58) Wie funktioniert High-Level eine Suchmaschine?

(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache, Stop-Words, Lemmatisierung, Stemming

(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale Encoder-Repräsentationen von Transformers (BERT)

(00:29:34) Speichern der Daten mit einem Index: Invertierter Index und Suffixbäume

(00:43:07) Daten wirklich finden durchs Ranking: N-Grams, TF/IDFrequency und Vector Space Model

(00:59:54) Wie wählt man ein gutes Such-System aus?

(01:04:20) Wie beeinflusst Generative AI die aktuellen Suchsysteme und Sucht-Grundlagen?


Hosts
  • Wolfgang Gassler (https://mastodon.social/@woolf)
  • Andy Grunwald (https://twitter.com/andygrunwald)


Feedback
  • EngKiosk Community: https://engineeringkiosk.dev/join-discord 
  • Email: stehtisch@engineeringkiosk.dev
  • LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
  • Mastodon: https://podcasts.social/@engkiosk
  • Twitter: https://twitter.com/EngKiosk


fyyd: Podcast Search Engine
share








 April 9, 2024  1h12m