Linkseiten: Suchmaschinen
/ Verzeichnisse /
Subject Gateways
Gliederung dieser Seite: Typisierung /
Suchmaschinen / Metasuchmaschinen
/ Verzeichnisse / Subject Gateways
/ Weitere Suchhilfsmittel / Vermischungen
und Grauzonen
- Wir unterscheiden aufgrund ihrer unterschiedlichen Funktion
und Handhabung drei Arten der Suchhilfen im Internet:
- Suchmaschinen
- Verzeichnisse
- Subject Gateways.
- Die Grenzen sind oft fliessend, ja einige Angebote versuchen
gezielt zugleich Suchmaschine und Verzeichnis zu sein. Umso
wichtiger erscheint es uns, die Grundsätze dieser Suchhilfen
zu vergegenwärtigen.
Typ
|
Merkmal(e)
|
Art der Suche
|
Beispiel(e)
|
|
Automatisches Suchen, Erfassen und Indizieren
von HTML-Dokumenten und Verwaltung der Ergebnisse
in einer Datenbank mit Verweisen auf Originale.
|
Volltext-Suche
|
altavista
|
|
Zeitgleiche Abfrage mehrerer Suchmaschinen und
gemeinsame Präsentation der Suchresultate.
|
Volltext-Suche
|
metager
|
|
Durch eine Redaktion betreute Aufnahme von Name,
Adresse, Kurzbeschrieb von Websites und Ablage dieser
Informationen in einer vorgegebenen Themenstruktur.
|
Adress-Namen-Stichwort-Suche
|
-
|
|
redaktionelle Betreung erfolgt zentral
|
-
|
yahoo
|
|
redaktionelle Betreuung erfolgt dezentral
|
-
|
open directory
|
|
Konzentration auf ein bestimmtes Thema
|
-
|
thematische Linkverzeichnisse
|
|
Verzeichnis mit folgenden zusätzlichen Merkmalen:
- vor allem wissenschaftliche Themen
- stärkere Strukturierung der Einträge
(Meta-Daten)
- Betreuung durch Institutionen mit professionellem
Knowhow in Datenstrukturierung (Bibliotheken)
|
differenzierte Datenbank-Suche über vorhandene
Felder
|
HistoryGuide
|
Funktion
Suchmaschinen bestehen aus zwei Teilen: ein Suchprogramm
sucht automatisch das Web nach HTML-Dokumenten ab, erfasst
und indiziert den Inhalt, und legt das Ergebnis dieser Auswertung
in einer Datenbank ab. Bei einer Anfrage durchsuchen wir
diese Datenbank, die uns eine Kurzbeschreibung und den Links
auf die Original-Datei liefert.
Einschränkungen und Probleme
- Geringe Reichweite
Suchmaschinen decken nur HTML-Dokumente ab (zusätzlich
werden neuerdings auch MP3-Dateien und Bilder berücksichtigt).
PDF-und Text-Dateien werden nicht erfasst. Ebensowenig werden
Datenbank-Inhalte berücksichtigt. Einträge in
Bibliothekskatalogen und anderen spezialisierten Datenbanken
finden den Weg in die Suchmaschinen-Datenbanken nicht.
Aber selbst bei den HTML-Dokumenten ist die Abdeckung gering.
Nach den jüngsten Schätzungen vom Sommer 1999
gab es Anfang 1999 ca. 800 Millionen HTML-Dokumente im Internet.
Die beste Suchmaschine erfasste gerade mal 16 Prozent dieser
geschätzten Menge. Es versteht sich von selbst, dass
dies nicht eine "gewollte" Reduktion der Datenmenge
ist; die Suchmaschinen beschränken sich also nicht
auf die wichtigen Dokumente.
- Mangelnde Aktualität
Die Suchmaschinen-Einträge werden automatisch erstellt.
Ein Programm analysiert ein HTML-Dokument und sucht anschliessend
alle Seiten auf, auf die ein Link vom ersten HTML-Dokument
aus zeigte. Dieses Prozedere ist nicht nur unsystematisch
(Webmaster helfen nach, indem sie den Suchmaschinen die
Adresse ihrer Websites mitteilen), sondern auch langsam.
Es kann Tage, Wochen, ja nicht selten Monate dauern, bis
neue Dokumente von Suchmaschinen erfasst worden sind. Je
näher die Suchmaschinen bei den Websites sind, desto
aktueller sind meist die Einträge: eine Schweizer Suchmaschine
wird in Bezug auf Schweizer Websites aktueller sein als
eine amerikanische. Und wichtige Websites (CNN oder NZZ)
werden häufiger durchforstet, als kleinere und unbekanntere.
- Funktion
Jede Suchmaschine funktioniert etwas anders. Wichtig sind
in jedem Fall Kenntnisse der booleschen"
Abfrage-Regeln: UND, ODER, UND NICHT und andere. Die Website
suchfibel.de bietet
eine gute Einfürhung in die Funktion von Suchmaschinen.
- Probleme von Volltext-Suchen
Volltext-Suchen sind zwar komfortabel, bergen aber auch
ihre Tücken. Die Suchmaschine macht genau das, was
man ihr aufträgt: Wer "Wikinger" sucht, findet
keine "Vikinger" und schon gar nicht "Normannen",
allerdings findet die Suchmaschine auch HTML-Dokumente,
in denen ein Gummiboot "Wikinger" verkauft wird
oder das ein Peter Wikinger verfasst hat. Genauer formulierte
Abfragen ("Schweiz Gold Zweiter Weltkrieg") führen
zwar zu weniger Ergebnissen, was deren Sichtung erleichert,
schliessen aber auch interessante Ergebnisse aus: in diesem
Falle etwa: "Handel mit Edelmetallen der eidgenössischen
Zentralbank zwischen 1940 und 1945". Es ist relativ
einfach, mit Volltextsuchen an vorhandenen Einträgen
"vorbeizusuchen".
- Probleme bei Gewichtung der Suchergebnisse (Ranking)
Bei einer Volltext-Suche ist das Datenbankprogramm gefordert,
die Suchergebnisse nach gewissen Kriterien gegliedert auszugeben.
Ein einfaches Kriterium wäre das Erstellungsdatum oder
eine alphabetische Sortierung nach Titel. Die meisten Suchmaschinen
geben die Ergebnisse gewichtet nach "Relevanz"
aus - ohne sich näher darüber auszulassen, was
genau das heisst. Mit einigem Grund: schlaue Programmierer
haben schnell herausgefunden, wie man die automatisch erstellten
"Relevanz-Werte" austricksen und sich selbst einen
begehrten Platz weit oben in der Ergebnisliste sichern kann.
Denn dort zu erscheinen ist das Ziel jeder Website. 80 Prozent
der Nutzer von Suchmaschinen sehen sich nur die ersten 20
Treffer einer Ergebnisliste an!
- Auch die Betreiber und Entwickler von Suchmaschinen sind
nicht untätig geblieben. Sie halten die genaueren Kriterien
für die Gewichtung geheim, um Missbrauch vorzubeugen
oder greifen auf Gewichtungskriterien zurück, die dem
Einfluss der Website-Betreiber verschlossen bleiben.
- Haupt-Kriterien
Die Häufigkeit des gesuchten Begriffs innerhalb des
Dokuments und seine Plazierung spielen bei der Gewichtung
der Ergebnisse die Hauptrolle. Wie genau die Gewichtung
vor sich geht und vor allem, mit welchen Zwischenschritten
die Datenbankbetreibe Missbrauch ausschliessen, ist jedoch
sehr unterschiedlich.
- Andere Gewichtungskriterien
- Anzahl Aufrufe des Dokuments durch NutzerInnen der
Suchmaschine (DirectHit)
- Anzahl Links, die auf das entsprechende Dokument verweisen
(Google)
- Anzahl Geld, das vom Ersteller des Dokuments für
eine gute Plazierung bezahlt wurde (Goto)
Das Problem der mangelnden Reichweite kann mit den Meta-Suchmaschinen
entschäft werden. Die Metasuchmaschinen richten die
Suche gleichzeitig an andere Suchmaschinen und sammeln deren
Ergebnisse ein und sortieren diese nach unterschiedlichen
Kriterien, die die NutzerInnen einstellen können.
Nachteile:
- Da die Suchmaschinen bei den verfeinerten Suchmöglichkeiten
unterschiedliche Befehle verwenden, können nur ganz
einfache Abfragen vorgenommen werden, was die Treffermenge
eher erhöht.
- Die Problematik des Rankings potenziert sich, da auf das
Ranking der Suchmaschinen noch eine der Metasuchmaschine
folgt.
- Es gibt derzeit keine Metasuchmaschine, die alle grossen
Suchmaschinen zusammenfasst.
- Funktion
Verzeichnisse verfolgen bei der Strukturierung des Internets
einen vollkommen anderen Ansatz als Suchmaschinen. Verzeichnisse
werden nicht von Maschinen erstellt, sondern von Menschen.
Redaktoren legen Verzeichnisstrukturen fest, in welchen
sie Websites, bzw. deren Titel und Adresse, ev. noch einen
dazugehörigen Kurzbeschrieb ablegen. Verzeichnisse
sind also durchaus etwa Branchenverzeichnissen wie etwa
den "Gelben Seiten" zu vergleichen. Die Websites,
bzw. deren Betreiber melden Adresse, Titel und gewünschten
Standort innerhalb des Verzeichnisses an.
- Zentralität
Bei den Verzeichnissen lassen sich unterschiedliche Ausprägungen
erkennen. Ein Kriterium zur Unterscheidung ist die Art,
wie die Redaktion organisiert ist. Neben Yahoo,
dem ältesten und bekanntesten Internet-Verzeichnis,
das mit einer zentralen Redaktion erstellt und betreut wird,
gibt es auch Verzeichnisse, die dezentral organisiert sind.
Dazu gehört neben dem Open
Source Directory auch das aus der Gründerzeit des
Internets stammende Virtual
Library Project. Hier betreuen viele verschiedenen Individuen
und Institutionen je eine Rubrik, bzw. ein Teil des Verzeichnisses.
- Spezialisierung
Verzeichnisse lassen sich auch anhand ihrer Spezialisierung
unterscheiden, wobei die Grenzen hier natürlich fliessend
sind. Die jeweiligen Endpunkte umfassen einerseits ein allumfassendes
Verzeichnis wie Yahoo und andererseits ganz kurze Linklists.
Diese sind auch nichts anderes als Verzeichnisse. Sie sind
zwar viel kleiner und subjektiver, aber gerade das kann
eine hilfreiche Einschränkung sein, wenn man schnell
zu den relevaten Websites zu einem bestimmten Thema gelangen
will.
- Nachteile
Natürlich haben auch Verzeichnisse ihre Nachteile:
Volltextsuchen über den Inhalt der Websites sind nicht
möglich, die Auswahl ist oftmals zufällig, es
gibt keine Qualitätskontrolle, keine Bewertung oder
Gewichtung der verzeichneten Websites, es gibt kaum Hintergrundinformationen
und die Verzeichnisse nehmen oft wenig Rücksicht auf
wissenschaftliche Bedürfnisse oder Interessen.
- Subject Gateways sind eine spezielle Untergruppe der Verzeichnisse,
die bei den Mängeln der Verzeichnisse ansetzen, bzw.
den Bogen von den traditionellen Suchhilfsmitteln zu den
internetspezifischen zu schlagen versuchen. Hinter den meisten
Subject Gateways (die auch Subject Directories genannt werden)
stehen Bibliotheken oder bibliotheksähnliche Institutionen.
- Subject Gateways verfolgen das Ziel, nach fachwissenschaftlichen
Kriterien Websites zu sammeln und analog zu bibliothekarischen
Gepflogenheiten mit beschreibenden und ev. auch bewertenden
Metadaten zu versehen. Mit anderen Worten: Subject Gateways
sehen Websites nicht als Adressen an, sondern als Informationseinheiten
wie Bücher, Filme oder Zeitschriften, zu denen entsprechende
Metadaten (Autor, Formate, Schlagworte) erfasste werden
können.
- Diese Metadaten ermöglichen dann auch ein Suchen
oder Sortieren nach vielfältigeren und differenzierteren
Kriterien: zum Beispiel alle Informationen eines gleichen
Autors, oder alle Websites mit Sound-Dateien etc. Allerdings
sind auch hier Suchstrategien für Verzeichnisse anzuwenden:
Sehr spezifische Suchabfragen, die bei Suchmaschinen helfen,
die Treffermenge zu reduzieren, führen hier selten
zum Erfolg, da auch bei Subject Gateways vor allem Titel,
eine Kurzbeschreibung und Stichworte erfasst sind.
- Ein Paradebeispiel für diesen Ansatz stellt der History
Guide der Staats- und Universitätsbibliothek Göttingen
dar. Oft sind aber die Grenzen zu einem herkömmlichen
Verzeichnis fliessend - gerade im Bereich des Virtual
Library Projects gibt es einige Angebote, die sich auch
als Subject Gateways bezeichnen.
- Das Internet besteht nicht nur aus HTML-Seiten und HTTP.
In Newsgroups und Mailing-Listen werden viele
Informationen zu sehr spezialisierten Themen ausgetauscht,
die von Interesse sein könnten. Vor allem kann man
dort auch Spezialisten treffen, die einem die gewünschte
Information selbst oder einen Hinweis darauf geben können.
- Newsgroups sind Diskussionforen ähnlich Schwarzen
Brettern. Jeder und jede kann Fragen oder Stellungnahmen
publizieren, und wer Lust hat, kann darauf eine Antwort
geben. Die Newsgroups funktionieren nach dem Hol-Prinzip,
das heisst, man muss die neuesten Informationen holen, bzw.
abrufen. Die Meldungen sind allgemein zugänglich, auch
für Nichtmitglieder der jeweiligen Newsgroup. Eine
Übersicht über die vorhandenen Newsgroups findet
man bei Google Groups.
- Mailinglisten sind vergleichbar mit Newsletter:
ein zentraler Server verschickt an eingeschriebene Abonnenten
regelmässig Mitteilungen. Einige Listen sind moderiert,
die Mitteilungen werden von einem Redaktor "geprüft",
bevor sie weitergeleitet, bzw. an die Abonnenten verschickt
werden. Einige Mailing-Listen funktionieren ähnlich
wie Foren: Jeder Abonnent kann mit einer Mitteilung an die
E-mail-Adresse des zentralen Servers zum Beispiel eine Frage
an alle Mitglieder der Mailingliste versenden. Eine Übersicht
über Mailinglist-Verzeichnisse bietet das Suchlexikon.
- In der Realität des bestehenden und sich entwickelnden
Internets lassen sich die Unterscheidungen nicht so klar
treffen wie hier in dieser Darstellung. Insbesondere die
Suchmaschinen und die Verzeichnisse rücken immer näher
zueinander: Bei Suchmaschinen trifft man auf Verzeichnisse
und bei Verzeichnissen kann man Volltext-Suchen in indizierten
HTML-Dokumenten durchführen (etwa bie Yahoo, das nach
einer erfolglosen Suche in Kategorien des Verzeichnisses
und Einträgen im Verzeichnis eine Suche in Webpages
durchführt).
- Gerade der Trend zu Portalen, wie etwa bei Tagesanzeiger,
aber auch in beschränkten Ausmass bei Yahoo
oder Altavista,
macht bei den Suchhilfsmitteln nicht halt: Personalisierungen
sind möglich und der "schnelle und direkte Zugriff"
auf wichtige Informationen: Wetterprognosen, Börsenkurse,
Veranstaltungskalender, Kleinanzeigen zu Immobilien, Jobs,
Auto.
- Deshalb lohnt sich bei der Nutzung der Suchhilfsmittel
die Frage an sich selbst: was für eine Art von Hilfsmittel
habe ich eigentlich vor mir?
|