Recherchieren im Internet: Wie funktionieren Suchmaschinen?

RecherchierenimInternet:
WiefunktionierenSuchmaschinen?
Steffen-PeterBallstaedt
Vortrag vordemGenealogischen Arbeitskreis Tübingen am17.2.2016
ZahlenundFakten
▶ 82%derComputernutzersuchen,79%mailen.
▶ DiehäufigsteAktivitätimInternetistMailen,
gleichdanachkommtSuchen.
▶ Über50.000AnfrageninderSekundebeiGoogle!
PlatzhirschGoogle
BeziehungsgeflechtderSuchmaschinen
ZahlenundFakten
▶DieAusdehnungdesInternetkannnurgrob
geschätztwerden!
▶Weltweit:über1MilliardeWebsites
▶BRD:etwa15MillionenWebsites
▶DasInternetverdoppeltsichalle5,32Jahre
AntwortenauffolgendeFragen:
▶ WiefindeteineSuchmaschineInhaltebzw.
DokumenteimWWW?
▶ WaskanneineSuchmaschinenichtfinden?
▶ WiekommtdieTrefferlistezustande(Ranking)?
▶ WelcheAlternativenzuGooglegibtes?
▶ WiekannmanpersonenbezogeneDatenim
Websuchen?
WiefindeteineSuchmaschine
InhalteimWWW?
AufbaueineSuchmaschine
WWW
Crawler
Dokumenten
speicher
Indexer
Searcher
Datenbank
Web-Repräsentation
Crawling
▶ AusgehendvonbekanntenWebsites
werdendieLinksverfolgt.
▶ DieText-Dokumentewerdenerfasstund
gespeichert(Dokumentenspeicher).
▶Crawling findetkontinuierlichstatt,nach
Aktualität undPopularität.
Indexierung
▶ ErstellteineRepräsentationdesDokuments
aussprachstatistischenDaten:Worthäufigkeit,
Wortposition,WortinTiteloderÜberschrift.
▶ DerIndexalseineriesigeDatenbankistdas
HerzeinerSuchmaschine.
▶ BeieinerSuchanfragewirdnichtaufdie
DokumenteimWeb,sondernaufdiese
RepräsentationdesWebzugegriffen.
Beispiel:IndexierungvonTextDokumenten
D1
Genealogieuntersuchtverwandtschaftliche
BeziehungenzwischenMenschen.
D2
HeimatgeschichteistengmitGenealogieverbunden.
D3
EineQuellesindKirchenbücher,eineandereQuelle
sindPersonenstandsbücher.
D4
MitdemWWWhatdieGenealogieeinen
Aufschwungerfahren.
Wort
Dokument
Häufigkeit
andere
D3
D3,6
Aufschwung
D4
D4,8
Beziehungen
D1
D1,6
dem
D4
D4,2
die
D4
D4,4
eine
D3
einen
D4
D4,7
eng
D2
D2,3
erfahren
D4
D4,9
Genealogie
D1,D2,D4
hat
D4
D4,4
Heimatgeschichte
D2
D2,1
ist
D2
D2,2
Kirchenbücher
D3
D3,4
Menschen
D1
D1,8
mit
D2,D4
Personenstandsbücher
D3
Quelle
D3
D3:2
D3,2D3,7
sind
D3
D3:2
D3,3D3,8
untersucht
D1
D1:1
D1,2
verbunden
D2
D2,6
verwandtschaftliche
D1
D1,5
WWW
D4
D4,3
zwischen
D1
D1,7
D3:2
D1:1D2:1D4:1
D2:1D4:1
Position
Index
derDokumente
D3,1,D3,5
D1,1D2,5D4,6
D2,4D4,1
D3,9
Suchanfragen,Stichworte
Genealogie
D1,D2,D4
Genealogie WWW
D4
Genealogie ORWWW
D1,D2,D4
„Verwandtschaftliche
Beziehungen“
D1
Searcher
▶ InterpretationderSuchanfrage(der
eingegebenStichwörter):
– SuchanfrageinderjeweiligenSession
– SuchhistoriedesNutzers
– angeklickteDokumente
– VerweildaueraufeinemTreffer
– SuchverhaltenvergleichbarerNutzer
WaskanneineSuchmaschine
nichtfinden?
GrenzenfürdieSuchmaschine
▶ BeschränkungdurchdieStrukturdesWWW:
nichtalleWebsitessinderreichbar.
▶ BeschränkungdurchdieStrukturderWebsite:
nichtalleDokumentesinderreichbar.
StrukturdesWWW
unerreichbareDokumente
▶ durchPasswortgeschützteBereiche
– Beispiel:Intranets
▶ durchSuchformularenutzbareDatenbanken
– BeispielTelefonbuch
▶ Social-Media-Dienste
– Beispiel:Facebook,Twitter
▶ Inhalte,diefürCrawlergesperrtsind
– gewollterAusschluss(robots exclusion)
– Filterung:ZensuroderrechtlichunzulässigeInhalte
▶ Echtzeitinhalte,diesichständigverändern
– Beispiele:Börsenkurse,Wetterdaten
SurfaceWebundDeep Web
WiekommtdieTrefferliste
zustande(Ranking)?
Ranking
▶DieTreffersindnachabsteigenderRelevanz
aufgelistet.
▶DieBerechnungdesRankingistbeijeder
SuchmaschineandersundeinGeheimnis
(Algorithmus)!
▶DasRankingwirdalsKombinationund
GewichtungverschiedenerFaktoren
berechnet(200beiGoogle)
ErzeugungderTrefferliste
Anfrage
Textstatistik
Ranking
Popularität
PageRank
Aktualität
Lokalität
Personalisierung
Technische
Faktoren
Ranking-Kriterien
▶ IndasRankinggehenkeinequalitativen,sondern
nurquantitativeGrößenein:
– link-statistischeVariablen
– nutzer-statistischeVariablen
▶ GesponserteLinksmüssengekennzeichnetsein.
▶ DasRankingkanndurchSuchmaschinen-
optimierungbeeinflusstwerden.
▶ UmdaspersonalisierteRankingzuerzeugen,
speichertdieSuchmaschineDatenüberden
Benutzer,erstellteinBenutzerprofil.
DieseDaten
speichertGoogle
▶dieIP-AdressedesComputers
▶dieSuchanfragen(Suchwörter)
▶denZeitpunktderSuche
▶dieangesteuertenTreffer(auchWerbung)
▶VerweildaueraufdenTreffern
- Geschäftsmodell
▶KontextbezogeneWerbungzuden
Suchwörtern
▶PersonenbezogeneWerbungüberangelegte
Benutzerprofile
▶VerkaufvonpersönlichenDatenund
NutzerprofilenanFirmenfürihre
personenbezogeneWerbung
BewertungderTreffer
▶ ImpressumundKontaktmöglichkeitvorhanden
▶ seriöseInstitution,z.B.Hochschule,Verlag,
▶
▶
▶
▶
▶
WissenschaftlicheGesellschaft,Qualitätspresse
Autoren/AutorinnenderTextesindbenannt
AngabevonQuellen,BelegefürBehauptungen
VerlinkungaufseriöseSites
PublikationsdatumundletzteÄnderung(last
update)
Vorsichtbeikommerziellenundgesponserten
Sites!
WelcheAlternativenzuGoogle
gibtes?
UniverselleSuchmaschinen
▶ Startpage:Anfragen
werdenanonymisiert
anGoogle
weitergeleitet.
▶ Qwant:französische
Suchmaschinemit
deutscherVersion
▶ DuckDuckGo:„Die
Suchmaschine,dieSie
nichtverfolgt.“
Meta-Suchmaschinen
▶HabenkeineneigenenIndexüberCrawler
angelegt.
▶Suchanfragenwerdenanmehrereandere
Suchmaschinenweitergeleitet.
▶TrefferausmehrerenTrefferlistenwerdenneu
gerankt.
▶Meta-SuchmaschinenergebenmehrTreffer,
abernichtunbedingtrelevantereTreffer!
Meta-Suchmaschinen
▶ Ixquik:keine
personenbezogene
Datengespeichert
▶ Metager:deutsche
SuchmaschinederUni
Hannover
Spezialsuchmaschinen
▶EsgibtCrawlerundSuchmaschinenfürspezielle
Inhalte:Nachrichten,Jobs,Reise,Personen,
Bilder,Videos
▶WissenschaftlicheSuchmaschinenwertennur
wissenschaftlicheDokumenteaus:
– https://scholar.google.de
– http://www.base-search.net
▶Portale/VerzeichnissefürSpezialsuchmaschinen
– www.suchmaschinen-datenbank.de
www.suchlexikon.de
Wasmachtgeschicktesund
professionellesSuchenaus?
Anfragetypen
▶ GezielteSuchenacheinembestimmtenFaktum
oderDokumentmitklardefiniertemErgebnis.
Optimal:DerersteTrefferistrichtig
▶ RecherchezueinemThemanachbisher
unbekanntenInformationenohneklaresEnde.
Optimal:VielerelevanteTreffer
FormulierenvonSuchanfragen
▶PassendeSuchwörter
– nichtzubreiteBedeutung
– verschiedeneSchreibweisenbeachten
– Synonymebeachten
– PhrasensucheinAnführungszeichenbeiZitaten
▶EinengungderSuchanfrage
– BoolescheOperatorenkombinierenSuchwörter
– ErweiterteSuchemitBefehlen:Filetyp,Sprache
Suchwort-Verknüpfungen
mitBooleschenOperatoren
AORB
AANDB
ANOTB
HundORKatze
Hund(AND)Katze
HundNOTKatze
122.000.000Treffer
5.800.000Treffer
90.300.000Treffer
(KarotteORMöhre)(SalatNüsse)-Koriander
Such-Tipps
▶InausländischenVersioneneineruniversalen
Suchmaschinesuchen.
▶ GleicheineausländischeSuchmaschine
verwenden,z.B.Bing
▶PortaleundVerzeichnissesindLinksammlungen
zueinemspeziellenThema.
– QualitätsprüfungdurcheinRedakteursteam
– nurthemenrelevanteTreffer
– VerzeichnisderVerzeichnisse:www.suchlexikon.de
Wiefindetmanpersonenbezogene
DatenimWWW?
FriedrichAdolfBallstaedt
*4.4.1884inSchrimm
✝ 13.11.1941inStettin
direktePersonensuche
▶ PhrasensuchemitVornameundNameineiner
universellenSuchmaschine,ev.mitzusätzlichen
Stichworten
– www.google.com
▶ PhrasensuchemitandererLänderversion
– www.google.fr
▶ PhrasensuchemitausländischerSuchmaschine
– https://www.yandex.ru
▶ PhrasensuchemitandererSpracheinstellung
– www.google.de →Einstellungen→ erweiterteSuche→
Sprache
direktePersonensuche
▶Namenseingabenineinespezielle
Personensuchmaschine
– ListevonsozialenNetzwerken:
http://www.yourtraces.com/
▶SammlungvonInformationenüberlebende
PersonenistwegenDatenschutzillegal.
direktePersonensuche
▶ SucheinDatenbanken,indereinePersonvermutet
wird(teilweiseregistrier- und/oderkostenpflichtig)
▶ GenealogischeDatenbanken
– https://familysearch.org/family-trees
– http://gav.azurewebsites.net
▶ Verzeichnisse/PortalevonDatenbanken
– https://de.wikipedia.org/wiki/Genealogie-Datenbank
– http://wikide.genealogy.net/Genealogische_Datenbank/Linkliste
– http://www.heimatarchiv.de/genealogie/webseiten.html
▶ Telefonbücher;Branchenverzeichnisseetc.
direktePersonensuche
▶GenealogischeMeta-Suchmaschine
– http://beuss.spdns.de/Crawl/
indirektePersonensuche
▶ SuchenachDokumenten,indenendiePerson
vermutetwird.
–
–
–
–
–
–
Kirchenbuchportale:
www.archion.de
http://search.ancestry.de/search/db.aspx?dbid=2116
Online-Archive:
https://archive.org/details/genealogy&tab=about
https://archivalia.hypotheses.org/category/genealogie
▶ IndenmeisteingescanntenDokumentenistkeine
Volltextsuchemöglich.
Fazit
DiegenealogischeForschungverlegtsichimmer
mehrinsWeb:
▶Erschließung:Primärquellenwerden
digitalisiertundimWebzurVerfügunggestellt.
▶BearbeitungderDatenerfolgtmitGenealogieProgrammen,z.B.Gen_Plus.
▶DieZusammenführungderDatenfindet
weltweitüberdasWebstatt.Standard:meist
GEDCOM.
Fazit
▶ Forschungsergebnissewerdenimmerhäufigerim
Webpräsentiert,daeinePrint-Veröffentlichung
teuerist.
▶ DieVisualisierungderBefundez.B.in
Stammbäumenerfolgtdurchspezielle
Programme,z.B.GRAMPS.
SchwerdurchschaubarerWildwuchsanAngeboten:
DieGrenzezwischenlaienhafterAufarbeitungund
wissenschaftlicherForschungverwischen.
VisualisierungdurchGRAMPS
Organisationen
▶ EinedeutscheOrganisationzur
Computergenealogiewurde1989gegründet.
▶EinZiel:dieEDV-gestütztestandardisierte
Erschließung,Bearbeitungund
VeröffentlichunggenealogischerQuellen.
Organisationen
▶FamilyHistory InformationStandards
Organization,seit2013.
▶„organisation established for the purpose of
developing genealogy and family history
information standards onamodernplatform“
VielenDankfürIhrInteresse!
www.ballstaedt-kommunikation.de
▶ Downloads