Archive for the ‘zoekmachine’ Tag

TWIT #35

TWIT

TWIT #21

TWIT

The Return of the Venn Diagram

Onze bèta-versie van Primo is nu, na een soft launch, zo’n twee maanden live. Achter de schermen wordt er nog druk gewerkt aan kleinere en grotere verbeteringen, want we zijn nog niet voor de volle 100% tevreden over zoekresultaten, presentatie en samenstelling van de Primo Central index. Met name dat laatste punt bezorgt ons de nodige hoofdbrekens: waar laat je je gebruikers nu precies in zoeken en hoe maak je zo ook duidelijk waar ze wél en juist niet in zoeken. Daarin blijken we uiteraard niet de enigen te zijn, maar het is toch enigszins verwonderlijk dat verschillende andere Primo-bibliotheken hun toevlucht menen te moeten nemen tot de good old Venn diagrammen om dat aan hún gebruikersgroepen duidelijk te maken. Een paar voorbeelden:

de KU Leuven:

 

University of Waterloo:

This diagram illustrates what's in Primo Central. A large circle represents all of Primo Central's content. Inside is a smaller circle representing all Primo/TRELLIS content and a larger circle which represents all of the articles available in research databases. This larger circle overlaps and extends outside of the Primo Central circle, illustrating that not all articles will be available through Primo Central.

Sheffield University:

Primo Central Index Venn diagram

Als doorgewinterde bibliothecarissen zijn wij allen uiteraard doorkneed in het gebruik van deze Venn diagrammen (wie heeft ze niet gebruikt bij het uitleggen van de Boolean operators aan nietsvermoedende studenten?), maar is het vooruitgang als we er opnieuw een beroep op moeten doen om onze ‘Google-voor-de-bibliotheek’ te positioneren en te promoten? Ik vrees dat we hier nog even goed over na moeten denken…

P.S. Ik hou me overigens aanbevolen voor andere voorbeelden. Niet opnieuw dat wiel enz….

Weekoogst #50

Cancellara, le favori de Paris-Roubaix

Fabian Cancellara, vorig jaar de ongenaakbare winnaar van Parijs-Roubaiax. Vandaag mocht hij niet winnen (en dus werd hij 2e).

Het was vandaag veel te mooi weer, Parijs-Roubaix veel te spannend en Ajax toch weer met zicht op de landstitel, dus deze keer moet de weekoogst maar in telegramstijl:

  • Een aantal Britse organisaties komt met een genuanceerd rapport over de meest waarschijnlijke en levensvatbare vormen van het publiceren van wetenschappelijke artikelen. Dergelijke nuancering wordt zelden echt gewaardeerd. Alle protagonisten gaan met de hen welgevallige conclusies aan de haal, zoals hier
  • Het Britse RIN komt met een tweede studie naar de actuele onderzoekspraktijk van wetenschappers, deze keer met een focus op de geesteswetenschappen. Het verwondert mij niet dat het afwijzen van een one-size-fits-all benadering voor onderzoeksondersteuning (opnieuw) een van de belangrijkste conclusies is.
  • Gaat Microsoft nu echt de concurrentie aan met Google Scholar? Het heeft er, gelet op de recente aanvullingen, verbeteringen en uitbreidingen van Microsoft Academic Search (onder beheer van Microsoft Asia) alle schijn van.
  • Enkele weken geleden vond er in London een studiedag plaats over de noodzaak niet alleen voor tijdschriften maar ook voor papieren monografieën sluitend afspraken te maken m.b.t. de permanente bewaring. Klik hier voor de resultaten van die conferentie. Dit onderwerp neemt overigens ook een prominente plaats in in James Neals bijdrage aan Educause Review over Prospects for Systemic Change across Academic Libraries. Het instemmend getwitter was niet van de lucht.

Volgende week weer een reguliere oogst.

Afko #4: ASEO

Eigenlijk was-ie bestemd voor de weekoogst, maar daar is ASEO eigenlijk te mooi voor. SEO kennen we natuurlijk allemaal, Search Engine Optimization, het optimaliseren (manipuleren zeggen sommigen) van websites om bij zoekacties door zoekmachines als Google zo hoog mogelijk in het resultatenlijstje terecht te komen. ASEO is de academische variant ervan, Academic Search Engine Optimization. Twee Duitse promovendi doen in het laatste nummer van het Journal of Electronic Publishing verslag van hun pogingen om Google Scholar te ‘foppen’ en daarmee enerzijds een hogere plek in de resultatenlijst te realiseren voor hun publicaties en anderzijds het aantal citaties dat door Google Scholar aan hun publicaties wordt meegegeven kunstmatig op te hogen. In beide blijken ze succesvol te zijn.

Jöran Beel en Bela Gipp hebben verschillende methodes gebruikt om Google Scholar om de tuin te leiden. Ze verborgen machine-leesbare maar voor het oog onzichtbare tekst in een artikel dat na publicatie ook teruggevonden wordt op de woorden uit die onzichtbare tekst. Ze voegden tekst en nieuwe literatuurverwijzingen toe aan reeds gepubliceerde artikelen, laadden die artikelen op hun persoonlijke website, op Mendeley of op Academia.edu waarna deze artikelen opnieuw geïndexeerd werden door Google Scholar alsof het nieuwe artikelen waren. Ze gebruikten de papergenerator SciGen om nonsens-artikelen samen te stellen die vervolgens vrolijk door Google Scholar geïndexeerd werden. Hetzelfde gebeurde met een Printing-on-Demand boek samengesteld uit nonsens-artikelen. De citaties in die nonsens-artikelen genereerden na indexering door Google Scholar hogere citatiescores voor de geciteerde artikelen. Kortom, ze deden van alles om Scholar op het verkeerde been te zetten, met acties die in de wetenschappelijke wereld onaanvaardbaar zijn. Ze slaagden in hun opzet en als klap op de vuurpijl plaatsen ze een Viagra-advertentie in een van hun gemodificeerde artikelen met opnieuw het bekende resultaat.

Moraal van het verhaal? Google Scholar loopt flink achter ten opzichte van grote broer Google in het detecteren van Academic Search Engine Spam (0ok een mooie afko: ASES). Door het indexeren van artikelen en papers van persoonlijke websites, universitaire websites en andere repositories van wetenschappelijke publicaties is Google Scholar vatbaar voor manipulatie en fraude. Is Scholar zelf daarmee gediskwalificeerd? Nee, dat zeker niet. (A)SEO is mensenwerk dus daar zit allereerst de fout. Maar het artikel van Boll en Gipp laat wel zien dat rankings en beoordelingen op basis van Google Scholar kritisch benaderd moeten worden.

Vorige aflevering: IP

Handig: even bij de buren gluren

Hoe zouden ze dat in Groningen doen? Of in Nijmegen of Utrecht? Het is een vraag die ik me in ieder geval regelmatig stel als we bezig zijn met nieuwe projecten, ideeënontwikkeling, verbetering van de dienstverlening of gewoon om inspiratie verlegen zitten. Een beetje rondkijken op de website van een collega-universiteitsbibliotheek kan dan heel nuttig zijn. Om te voorkomen dat je opnieuw zelf het wiel uit vindt, om contacten te leggen met collega’s die met hetzelfde onderwerp bezig zijn, om te kijken of dat ene lumineuze idee elders juist bewust is afgeschoten.

Het kost echter soms wat tijd om al die afzonderlijke websites af te zoeken. En daar komt nu mijn collega Pascal me te hulp. Hij heeft nl. een Google Customized Search Engine voor de websites van de Nederlandse universiteitsbibliotheken gemaakt. Een simpel idee, maar voor mij heeft het z’n waarde al bewezen. Weten wat de verschillende UBs aan open access doen? Is de UB Amsterdam echt nog de enige met een Platenkamer? Hoe richten ze hun informatievaardigheden-onderwijs elders in? De antwoorden komen alleen uit het domein waar je primair in geïnteresseerd bent. Pascal, dank!

Inside Google’s black box

Op Inside Google Book Search worden o.m. vragen van gebruikers van Google Book Search behandeld door mensen van het GBS-team. Deze week betreft het de vraag waarom bij zoekacties naar boeken in Google.com er geen resultaten uit GBS bovenaan de resultatenlijst verschijnen. Het antwoord van Google is duidelijk:

“Deciding which type of content to show in results for a specific search term is an interesting and challenging question. When you search for a term and a book is the best source of information, we want you to be able to find it easily. Say, for example, you type “Shakespeare” in to Google. Are you looking for biographical details about the playwright, a picture of the man, videos of performances of his works, or to read and buy a copy of one of his works? This is the kind of challenge in ranking search results that is exciting for our teams to tackle. When searching on our homepage, http://books.google.com, you are directly searching the text of over 7 million books. For searches on Google.com, we will blend books into search results when we think it fits the query.”

En daar gaat het natuurlijk om: wanneer en hoe bepaalt Google dat als ik naar Shakespeare zoek, ik alleen geïnteresseerd ben in beeldmateriaal, ook al zoek ik in de ‘standaard’ Google? Dat blijft ook met dit antwoord toch onduidelijk.

Maar deze post van Google zelf roept meer vragen op. Om het antwoord toe te lichten worden er twee screenshots van zoekacties in Google.com getoond. Een zoekactie op war of the worlds  en een op organizing your sock drawer. De eerste zoekactie leidt tot een lijst zoekresultaten die aangevoerd wordt door een link naar Steven Spielbergs film in de Internet Movie Database, vervolgens twee verwijzingen naar Wikipedia en als vierde een link naar de full text van een 2006-editie van The War of the Worlds uit Google Book Search. Mooie illustratie van het eerder gegeven antwoord, denk je dan. Ook de tweede zoekactie levert als derde resultaat een boek uit GBS op, en dit alles volgens Ryan Sands van GBS omdat “they are the best fit.”

Maar wat gebeurt er als je deze zoekacties zelf herhaalt, vanuit Nederland en zowel op Google.com als op Google.nl? (en ik nodig iedereen uit het ook te doen en afwijkende resultaten te melden). Dan verdwijnt het boek van HG Wells uit GBS bij Google.nl uit de zoekresultaten. Omdat Google weet dat ik niet geïnteresseerd ben in een gedrukte editie? Of hebben we hier te maken met de beperktere beschikbaarheid van GBS buiten de Verenigde Staten? Ook bij de tweede zoekactie, zowel in Google.com als Google.nl, krijg ik niet het boek dat volgens Inside GBS als derde zoekresultaat wordt gepresenteerd. Van die dingen!

Ik ga denk ik maar een vervolgvraag stellen aan Randy.

PurpleSearch Live

purplesearchlogo

Ik blogde er al eerder over, maar vandaag is het dan zo ver: PurpleSearch, de door de Groningse UB zelf ontwikkelde zoekmachine, wordt vandaag echt gelanceerd. Nogmaals mijn felicitaties aan onze Groningse collega’s.

PurpleSearch (aka LiveTrix)

Het gebeurt een beetje op kousenvoeten: de elektronische nieuwsbrief van de UB Groningen maakt voorzichtig melding van het feit dat “een voorlopige testversie beschikbaar” is. Dat heet toch gewoon ‘beta’ en is tegenwoordig eerder regel dan uitzondering. In de nieuwe Pictogram staat een interview met de makers van deze nieuwe innovatieve zoekmachine. Ook daar wat terloops de mededeling dat “rond het verschijnen van dit nummer van Pictogram” PurpleSearch (in een eerder leven beter bekend als LiveTrix) beschikbaar zal komen. Waarom zoveel bescheidenheid van onze Groningse collega’s? Er gaat toch niets boven Groningen, en er gaat op dit moment in de wereld van Nederlandse universiteitsbibliotheken waarschijnlijk toch niets boven PurpleSearch?

Wat is PurpleSearch dan? Volgens de makers een nieuwe, intelligente zoekmachine voor het gelijktijdig (simultaan, federatief) doorzoeken van verschillende databases, maar dan zonder de ongemakken van het bijvoorbeeld bij veel Nederlandse universiteiten in gebruik zijnde MetaLib. PurpleSearch heeft één zoekbalkje, ondersteunt de gebruiker bij het vinden van termen door automatische woordaanvulling, en bepaalt zelf (op basis van alle eerder uitgevoerde zoekacties) in welke databases het best naar de ingevoerde zoekterm gezocht kan worden. PurpleSearch kan daarvoor op dit moment kiezen uit zo’n 120 databases waar Groningen een licentie voor heeft of die Open Access zijn.

PurpleSearch is daarmee met name voor wat een van de ontwikkelaars “onervaren gebruikers” noemt een geschikt instrument om zoekacties naar literatuur te doen. Die hoeven niet na te denken over de meest geschikte databases, dat doet PurpleSearch voor hen (en nog veel meer). Daarmee doemt natuurlijk nog wel een probleem op voor onze Groningse collega’s: want hoe positioneer je PurpleSearch nu tussen al die andere mogelijkheden die gebruikers hebben? Verdwijnt RUG Combine (de Groningse MetaLib-implementatie) binnenkort van het toneel? Wat is het lot van de opc?

Maar dat mag op dit moment allemaal de pret niet drukken. Gefeliciteerd, collega’s in Groningen! Petje af.

P.S. ook leuk: filmpje!

P.S.2 en voor meer informatie o.m. de PurpleSearch-wiki en Ubetom’s Blog.