Web Information Retrieval –
Technologien zur Informationssuche im Internet –
Dirk Lewandowski

In diesem Buch gibt es für uns einige interessante Hinweise auf das Nutzerverhalten im Umgang mit Suchmaschinen im Internet. Weiterhin werden Ansätze diskutiert wie Suchmaschinen in Zukunft verbessert werden können.

Nutzerverhalten

  • Die Auswertung der Nutzerumfrage sowie von 400 zufällig gewählten Anfragen aus dem query log ergab, dass sich die Anfragen der AltaVista-Nutzer zum Untersuchungszeitpunkt folgendermaßen aufteilten: zwischen 20 und 24,5 Prozent der Anfragen waren navigationsorientierte Anfragen, zwischen 39 und 48 Prozent informationsorientiert und zwischen 22 und 30 Prozent transaktionsorientiert. [nach Broder, A. (2002): A taxonomy of web search. SIGIR Forum 36(2). http://www.acm.org/sigir/forum/F2002/broder.pdf [12.7.2004]]
  • Operatoren. Boolesche Operatoren werden nur bei etwa jeder zehnten Anfrage verwendet (Spink u. Jansen 2004, 184), während etwa 20 Prozent der Nutzer angeben, diese öfter zu verwenden (Machill et al. 2003, 167). Eine Untersuchung aus dem Jahr 2000 (Jansen, Spink, Saracevic 2000) fand heraus, dass etwa die Hälfte der Booleschen Anfragen zudem Fehler enthalten; bei den von den Nutzern an Stelle der Booleschen Operatoren bevorzugten Plus- und Minuszeichen (die die selben Funktionen ausdrücken) lag die Fehlerquote sogar bei zwei Dritteln.
  • Erweiterte Suchformulare. Während die Booleschen Operatoren nach der Befragung von Machill et al. (2003) nur etwa der Hälfte der Nutzer bekannt sind, erreichen die erweiterten Suchformulare („Profisuche“) mit 59 Prozent eine etwas
    höhere Bekanntheit. Allerdings zeigt sich, dass sie noch seltener genutzt werden als die Operatoren: Nur 14 Prozent der Nutzer geben an, die erweiterte Suche öfter zu nutzen (Machill et al. 2003, 168). In der angeschlossenen Laboruntersuchung lag deren Nutzung noch einmal deutlich darunter.
  • Zeitliche Entwicklungen. In Hinblick auf die Nutzung von Operatoren kann keine Entwicklung festgestellt werden; ihre Nutzung hat sich im Lauf der Jahre nicht verändert (Spink u. Jansen 2004, 79). Allerdings nimmt die Länge der Suchanfragen langsam zu und liegt mittlerweile bei durchschnittlich etwa 2,6 Termen je Anfrage. Spink u. Jansen (2004, 80) sehen darin ein Anzeichen für die zunehmende Komplexität der Web-Suchen.
  • Sichten der Treffer. Von allen Untersuchungen wird übereinstimmend festgestellt, dass Nutzer in der
    Regel nur die ersten Treffer aus den Ergebnislisten überhaupt ansehen. Etwas 80 Prozent der Nutzer sehen sich nur die ersten zehn Treffer in der Ergebnisliste an, also in der Regel die erste Seite der Trefferliste (Hölscher u. Strube 2000; Jansen et al. 2000; Silverstein et al. 1999; Spink u. Jansen 2004). Nach den Studien von Spink u. Jansen hat die Anzahl der angesehenen Ergebnisseiten im Lauf der Zeit abgenommen; dies könnte allerdings auch darauf zurückzuführen sein, dass es den Suchmaschinen im Lauf der Zeit gelungen ist, die Suchanfragen besser zu beantworten, so dass sich brauchbare Ergebnisse öfter bereits auf der ersten Ergebnisseite finden.
  • Dauer der Suche. Im Rahmen einer Recherche sichten die Nutzer im Durchschnitt nur etwa fünf
    Dokumente (Spink u. Jansen 2004, 101), wobei jedes Dokument nur kurz geprüft wird, ob es die gewünschte Information enthält. Die Recherche wird meist abgebrochen, sobald ein Dokument gefunden wurde, welches geeignet erscheint, das Informationsbedürfnis zu befriedigen. Eine gesamte Such-Session inklusive der Sichtung der Dokumente dauert in der großen Mehrheit nur etwa 15 Minuten (Spink u. Jansen 2004, 101).

Rankingfaktoren

  • die anfrageabhängigen Faktoren (query dependent factors, auch on-the-page criteria) orientieren sich an den im klassischen Information Retrieval verwendeten Kriterien wie etwa Worthäufigkeiten und Position der Suchbegriffe im Dokument.
    ranking_02
  • die anfrageunabhängigen Faktoren (query independent factors, auch off-the-page criteria) versuchen, die Qualität bzw. Autorität eines Dokuments unabhängig von einer Suchanfrage zu bestimmen.
    ranking_01
  • Science Citation Indexing. Die grundlegenden Ideen der linktopologischen Verfahren gehen zurück auf die Arbeit an wissenschaftlichen Zitationsindizes. Hier ist vor allem der Name Eugene Garfield zu nennen. Seine Grundannahme lautet, dass das Zitieren einer Quelle ein Ausdruck der Wertschätzung dieser Quelle ist. Durch die Häufigkeit der Zitierungen lässt sich der Wert der zitierten Quelle bestimmen.

Verfahren der intuitiven Nutzerführung

  • Verfahren der intuitiven Benutzerführung lenken den Nutzer durch das Anbieten von auf seine Suchanfrage zugeschnittenen
    Einschränkungsmöglichkeiten. Dabei wird die ursprünglich abgeschickte Suche durch Elemente des Browsings ergänzt. Ein Suchprozess besteht damit also aus zwei Schritten: (Einfache) Formulierung der Suchanfrage sowie deren Reformulierung durch Anklicken von Einschränkungsmöglichkeiten, die vom System aufgrund der Suchanfrage und ihrer Treffer vorgegeben werden.
  • Relevance Feedback. Das Relevance Feedback ist eine der klassischen Methoden, die es dem Nutzer
    ermöglichen, die Größe der Treffermenge und ihre Beschaffenheit zu verändern. Einen Überblick der für das Relevance Feedback verwendeten Verfahren und Formeln findet sich in Harman (1992b).
    – Verfahren, die im Feedback-Prozess lediglich die Term-Gewichtungen verändern, um zu einem besseren Ranking zu kommen
    – Verfahren, die die in der Suchanfrage verwendeten Terme selbst verändern (Harman 1992, 242b).
    Relevance Feedback ist insbesondere bei den bei der Web-Suche häufig vorkommenden kurzen Anfragen sinnvoll (Chakrabarti 2003, 57f.).
  • Suchen nach ähnlichen Dokumenten werden durchschnittlich in jeder 20. Suchanfrage verwendet (Spink
    2003, 302).
  • Es werden zu einer bestehenden Suchanfrage auf Basis der top gerankten Dokumente Themen bzw. Begriffe ermittelt, die für die Suchanfrage relevant sein könnten. Der Nutzer kann nun zu jedem Thema angeben, ob dieses in die Suchanfrage übernommen oder aber ausgeschlossen werden soll.
  • Die beschriebenen Verfahren des Relevance Feedback bieten grundsätzlich gute Möglichkeiten, Suchanfragen zu verfeinern. Allerdings dürften die meisten Ansätze an der mangelnden Akzeptanz seitens der Nutzer scheitern. Interessant erscheint
    vor allem der Ansatz von MSN: Dort ist es gelungen, die Möglichkeiten der Relevanzveränderung in ein klares graphisches Konzept zu fassen. Die „Schieberegler“ laden geradezu zum Ausprobieren ein. Im Praxistest zeigen sich allerdings keine besonders weitreichenden Veränderungen der Trefferlisten durch den Einsatz der Funktion.
  • Clusterverfahren bieten eine intuitiv verständliche Möglichkeit, große Treffermengen ohne erweiterte Recherchekenntnisse schnell auf ein überschaubares Maß einzuschränken. Auch wenn durch teils ungenaue Zuordnungen
    relevante Dokumente im Prozess der Einschränkung „verloren gehen“, so dürfte das Verfahren doch gerade dem ungeübten Nutzer die Möglichkeit geben, Dokumente zu ermitteln, die zu seinem Informationsbedürfnis passen, auch wenn seine
    Suchanfrage nur sehr ungenau formuliert war und die dahinterstehende Intention nicht zu erkennen war. Die Clusterbildung sollte von zukünftigen Suchmaschinen zur Unterstützung der Nutzer eingesetzt werden.
    – eignet sich nur für die Veränderung der Suchanfrage „in eine Richtung“, nämlich zur Einschränkung der Ergebnismenge.
    – Browsing durch die Cluster bedeutet bisher auch stets den Ausschluss aller anderen Cluster.
    – es müssten mehrere Cluster gleichzeitig auswählbar sein
  • Die Nutzer sollten eine stärkere Kontrolle über die Treffermengen erhalten. Dabei werden die Kenntnisse und die Möglichkeiten der Nutzer zu berücksichtigen sein. Auf Basis des bisher Erarbeiteten werden drei Kernbereiche identifiziert, die für
    eine Verbesserung des Web Information Retrieval kritisch sind: Aktualität, Qualität und Dokumentrepräsentation.
  • Laien als auch die der Profi-Rechercheure in einem System adäquat sollten bedient werden