RecherchierenimInternet: WiefunktionierenSuchmaschinen? Steffen-PeterBallstaedt Vortrag vordemGenealogischen Arbeitskreis Tübingen am17.2.2016 ZahlenundFakten ▶ 82%derComputernutzersuchen,79%mailen. ▶ DiehäufigsteAktivitätimInternetistMailen, gleichdanachkommtSuchen. ▶ Über50.000AnfrageninderSekundebeiGoogle! PlatzhirschGoogle BeziehungsgeflechtderSuchmaschinen ZahlenundFakten ▶DieAusdehnungdesInternetkannnurgrob geschätztwerden! ▶Weltweit:über1MilliardeWebsites ▶BRD:etwa15MillionenWebsites ▶DasInternetverdoppeltsichalle5,32Jahre AntwortenauffolgendeFragen: ▶ WiefindeteineSuchmaschineInhaltebzw. DokumenteimWWW? ▶ WaskanneineSuchmaschinenichtfinden? ▶ WiekommtdieTrefferlistezustande(Ranking)? ▶ WelcheAlternativenzuGooglegibtes? ▶ WiekannmanpersonenbezogeneDatenim Websuchen? WiefindeteineSuchmaschine InhalteimWWW? AufbaueineSuchmaschine WWW Crawler Dokumenten speicher Indexer Searcher Datenbank Web-Repräsentation Crawling ▶ AusgehendvonbekanntenWebsites werdendieLinksverfolgt. ▶ DieText-Dokumentewerdenerfasstund gespeichert(Dokumentenspeicher). ▶Crawling findetkontinuierlichstatt,nach Aktualität undPopularität. Indexierung ▶ ErstellteineRepräsentationdesDokuments aussprachstatistischenDaten:Worthäufigkeit, Wortposition,WortinTiteloderÜberschrift. ▶ DerIndexalseineriesigeDatenbankistdas HerzeinerSuchmaschine. ▶ BeieinerSuchanfragewirdnichtaufdie DokumenteimWeb,sondernaufdiese RepräsentationdesWebzugegriffen. Beispiel:IndexierungvonTextDokumenten D1 Genealogieuntersuchtverwandtschaftliche BeziehungenzwischenMenschen. D2 HeimatgeschichteistengmitGenealogieverbunden. D3 EineQuellesindKirchenbücher,eineandereQuelle sindPersonenstandsbücher. D4 MitdemWWWhatdieGenealogieeinen Aufschwungerfahren. Wort Dokument Häufigkeit andere D3 D3,6 Aufschwung D4 D4,8 Beziehungen D1 D1,6 dem D4 D4,2 die D4 D4,4 eine D3 einen D4 D4,7 eng D2 D2,3 erfahren D4 D4,9 Genealogie D1,D2,D4 hat D4 D4,4 Heimatgeschichte D2 D2,1 ist D2 D2,2 Kirchenbücher D3 D3,4 Menschen D1 D1,8 mit D2,D4 Personenstandsbücher D3 Quelle D3 D3:2 D3,2D3,7 sind D3 D3:2 D3,3D3,8 untersucht D1 D1:1 D1,2 verbunden D2 D2,6 verwandtschaftliche D1 D1,5 WWW D4 D4,3 zwischen D1 D1,7 D3:2 D1:1D2:1D4:1 D2:1D4:1 Position Index derDokumente D3,1,D3,5 D1,1D2,5D4,6 D2,4D4,1 D3,9 Suchanfragen,Stichworte Genealogie D1,D2,D4 Genealogie WWW D4 Genealogie ORWWW D1,D2,D4 „Verwandtschaftliche Beziehungen“ D1 Searcher ▶ InterpretationderSuchanfrage(der eingegebenStichwörter): – SuchanfrageinderjeweiligenSession – SuchhistoriedesNutzers – angeklickteDokumente – VerweildaueraufeinemTreffer – SuchverhaltenvergleichbarerNutzer WaskanneineSuchmaschine nichtfinden? GrenzenfürdieSuchmaschine ▶ BeschränkungdurchdieStrukturdesWWW: nichtalleWebsitessinderreichbar. ▶ BeschränkungdurchdieStrukturderWebsite: nichtalleDokumentesinderreichbar. StrukturdesWWW unerreichbareDokumente ▶ durchPasswortgeschützteBereiche – Beispiel:Intranets ▶ durchSuchformularenutzbareDatenbanken – BeispielTelefonbuch ▶ Social-Media-Dienste – Beispiel:Facebook,Twitter ▶ Inhalte,diefürCrawlergesperrtsind – gewollterAusschluss(robots exclusion) – Filterung:ZensuroderrechtlichunzulässigeInhalte ▶ Echtzeitinhalte,diesichständigverändern – Beispiele:Börsenkurse,Wetterdaten SurfaceWebundDeep Web WiekommtdieTrefferliste zustande(Ranking)? Ranking ▶DieTreffersindnachabsteigenderRelevanz aufgelistet. ▶DieBerechnungdesRankingistbeijeder SuchmaschineandersundeinGeheimnis (Algorithmus)! ▶DasRankingwirdalsKombinationund GewichtungverschiedenerFaktoren berechnet(200beiGoogle) ErzeugungderTrefferliste Anfrage Textstatistik Ranking Popularität PageRank Aktualität Lokalität Personalisierung Technische Faktoren Ranking-Kriterien ▶ IndasRankinggehenkeinequalitativen,sondern nurquantitativeGrößenein: – link-statistischeVariablen – nutzer-statistischeVariablen ▶ GesponserteLinksmüssengekennzeichnetsein. ▶ DasRankingkanndurchSuchmaschinen- optimierungbeeinflusstwerden. ▶ UmdaspersonalisierteRankingzuerzeugen, speichertdieSuchmaschineDatenüberden Benutzer,erstellteinBenutzerprofil. DieseDaten speichertGoogle ▶dieIP-AdressedesComputers ▶dieSuchanfragen(Suchwörter) ▶denZeitpunktderSuche ▶dieangesteuertenTreffer(auchWerbung) ▶VerweildaueraufdenTreffern - Geschäftsmodell ▶KontextbezogeneWerbungzuden Suchwörtern ▶PersonenbezogeneWerbungüberangelegte Benutzerprofile ▶VerkaufvonpersönlichenDatenund NutzerprofilenanFirmenfürihre personenbezogeneWerbung BewertungderTreffer ▶ ImpressumundKontaktmöglichkeitvorhanden ▶ seriöseInstitution,z.B.Hochschule,Verlag, ▶ ▶ ▶ ▶ ▶ WissenschaftlicheGesellschaft,Qualitätspresse Autoren/AutorinnenderTextesindbenannt AngabevonQuellen,BelegefürBehauptungen VerlinkungaufseriöseSites PublikationsdatumundletzteÄnderung(last update) Vorsichtbeikommerziellenundgesponserten Sites! WelcheAlternativenzuGoogle gibtes? UniverselleSuchmaschinen ▶ Startpage:Anfragen werdenanonymisiert anGoogle weitergeleitet. ▶ Qwant:französische Suchmaschinemit deutscherVersion ▶ DuckDuckGo:„Die Suchmaschine,dieSie nichtverfolgt.“ Meta-Suchmaschinen ▶HabenkeineneigenenIndexüberCrawler angelegt. ▶Suchanfragenwerdenanmehrereandere Suchmaschinenweitergeleitet. ▶TrefferausmehrerenTrefferlistenwerdenneu gerankt. ▶Meta-SuchmaschinenergebenmehrTreffer, abernichtunbedingtrelevantereTreffer! Meta-Suchmaschinen ▶ Ixquik:keine personenbezogene Datengespeichert ▶ Metager:deutsche SuchmaschinederUni Hannover Spezialsuchmaschinen ▶EsgibtCrawlerundSuchmaschinenfürspezielle Inhalte:Nachrichten,Jobs,Reise,Personen, Bilder,Videos ▶WissenschaftlicheSuchmaschinenwertennur wissenschaftlicheDokumenteaus: – https://scholar.google.de – http://www.base-search.net ▶Portale/VerzeichnissefürSpezialsuchmaschinen – www.suchmaschinen-datenbank.de www.suchlexikon.de Wasmachtgeschicktesund professionellesSuchenaus? Anfragetypen ▶ GezielteSuchenacheinembestimmtenFaktum oderDokumentmitklardefiniertemErgebnis. Optimal:DerersteTrefferistrichtig ▶ RecherchezueinemThemanachbisher unbekanntenInformationenohneklaresEnde. Optimal:VielerelevanteTreffer FormulierenvonSuchanfragen ▶PassendeSuchwörter – nichtzubreiteBedeutung – verschiedeneSchreibweisenbeachten – Synonymebeachten – PhrasensucheinAnführungszeichenbeiZitaten ▶EinengungderSuchanfrage – BoolescheOperatorenkombinierenSuchwörter – ErweiterteSuchemitBefehlen:Filetyp,Sprache Suchwort-Verknüpfungen mitBooleschenOperatoren AORB AANDB ANOTB HundORKatze Hund(AND)Katze HundNOTKatze 122.000.000Treffer 5.800.000Treffer 90.300.000Treffer (KarotteORMöhre)(SalatNüsse)-Koriander Such-Tipps ▶InausländischenVersioneneineruniversalen Suchmaschinesuchen. ▶ GleicheineausländischeSuchmaschine verwenden,z.B.Bing ▶PortaleundVerzeichnissesindLinksammlungen zueinemspeziellenThema. – QualitätsprüfungdurcheinRedakteursteam – nurthemenrelevanteTreffer – VerzeichnisderVerzeichnisse:www.suchlexikon.de Wiefindetmanpersonenbezogene DatenimWWW? FriedrichAdolfBallstaedt *4.4.1884inSchrimm ✝ 13.11.1941inStettin direktePersonensuche ▶ PhrasensuchemitVornameundNameineiner universellenSuchmaschine,ev.mitzusätzlichen Stichworten – www.google.com ▶ PhrasensuchemitandererLänderversion – www.google.fr ▶ PhrasensuchemitausländischerSuchmaschine – https://www.yandex.ru ▶ PhrasensuchemitandererSpracheinstellung – www.google.de →Einstellungen→ erweiterteSuche→ Sprache direktePersonensuche ▶Namenseingabenineinespezielle Personensuchmaschine – ListevonsozialenNetzwerken: http://www.yourtraces.com/ ▶SammlungvonInformationenüberlebende PersonenistwegenDatenschutzillegal. direktePersonensuche ▶ SucheinDatenbanken,indereinePersonvermutet wird(teilweiseregistrier- und/oderkostenpflichtig) ▶ GenealogischeDatenbanken – https://familysearch.org/family-trees – http://gav.azurewebsites.net ▶ Verzeichnisse/PortalevonDatenbanken – https://de.wikipedia.org/wiki/Genealogie-Datenbank – http://wikide.genealogy.net/Genealogische_Datenbank/Linkliste – http://www.heimatarchiv.de/genealogie/webseiten.html ▶ Telefonbücher;Branchenverzeichnisseetc. direktePersonensuche ▶GenealogischeMeta-Suchmaschine – http://beuss.spdns.de/Crawl/ indirektePersonensuche ▶ SuchenachDokumenten,indenendiePerson vermutetwird. – – – – – – Kirchenbuchportale: www.archion.de http://search.ancestry.de/search/db.aspx?dbid=2116 Online-Archive: https://archive.org/details/genealogy&tab=about https://archivalia.hypotheses.org/category/genealogie ▶ IndenmeisteingescanntenDokumentenistkeine Volltextsuchemöglich. Fazit DiegenealogischeForschungverlegtsichimmer mehrinsWeb: ▶Erschließung:Primärquellenwerden digitalisiertundimWebzurVerfügunggestellt. ▶BearbeitungderDatenerfolgtmitGenealogieProgrammen,z.B.Gen_Plus. ▶DieZusammenführungderDatenfindet weltweitüberdasWebstatt.Standard:meist GEDCOM. Fazit ▶ Forschungsergebnissewerdenimmerhäufigerim Webpräsentiert,daeinePrint-Veröffentlichung teuerist. ▶ DieVisualisierungderBefundez.B.in Stammbäumenerfolgtdurchspezielle Programme,z.B.GRAMPS. SchwerdurchschaubarerWildwuchsanAngeboten: DieGrenzezwischenlaienhafterAufarbeitungund wissenschaftlicherForschungverwischen. VisualisierungdurchGRAMPS Organisationen ▶ EinedeutscheOrganisationzur Computergenealogiewurde1989gegründet. ▶EinZiel:dieEDV-gestütztestandardisierte Erschließung,Bearbeitungund VeröffentlichunggenealogischerQuellen. Organisationen ▶FamilyHistory InformationStandards Organization,seit2013. ▶„organisation established for the purpose of developing genealogy and family history information standards onamodernplatform“ VielenDankfürIhrInteresse! www.ballstaedt-kommunikation.de ▶ Downloads
© Copyright 2024 ExpyDoc