Hoe FAIR is het softwarelandschap van de Universiteit Utrecht?

Tegenwoordig is het heel gewoon om code en software te ontwikkelen en te gebruiken voor onderzoek. Masterstudent Keven Quach wilde weten hoe FAIR de code en software is die wordt ontwikkeld door onderzoekers van de Universiteit Utrecht. Dus dook hij in GitHub, een online platform waar je code en software kunt ontwikkelen, beheren en publiceren. Daar vond Keven een aantal interessante feiten.

Het onderzoek van Keven bestaat uit 3 fasen: "In de eerste fase van mijn onderzoek heb ik de GitHub-profielen van onze onderzoekers verzameld. Omdat er geen centrale database is met GitHub-profielen van onderzoekers van de Universiteit Utrecht (UU), moesten we de gebruikers uit verschillende bronnen verzamelen. Ik heb GitHub van de Universiteit Utrecht doorzocht en de informatie verzameld. We hebben ook gezocht naar GitHub-profielen in de data van PURE. Vervolgens hebben we gezocht op 'paperswithcode.com'. Als je dat beperkt tot de Universiteit Utrecht, vind je de publicaties van Utrechtse wetenschappers. De laatste bron die we gebruikten, was de medewerkerspagina op de website van de universiteit."

Analyseren met SWORDS

De masterscriptie van Keven Quach heet: ´Mapping Research Software Landscapes through Exploratory Studies of GitHub Data´. Hij voerde zijn onderzoek uit in het kader van het Open Science Programma. Keven werkte voorafgaand aan zijn scriptie al samen met professor Anna-Lena Lamprecht en Jonathan de Bruin als onderzoeksassistent voor de ontwikkeling van SWORDS.

SWORDS staat voor ´Scan and revieW of Open Research Data and Software´. SWORDS is een krachtig instrument om inzicht te krijgen in de open source activiteiten van een universiteit of van een onderzoeksinstituut. Het proefschrift voorzag het SWORDS raamwerk van extra variabelen. Hoewel de analyse en dataverzameling alleen voor UU-onderzoekers zijn gedaan, is het doel van dit onderzoek om als sjabloon te dienen voor andere onderzoekers om ook voor hun universiteit of organisatie repositories te scannen en te beoordelen.

Monnikenwerk

Als tweede stap verzamelde Keven alle code en software repositories. Hij voegde alle informatie die hij had over de onderzoekers en hun GitHub-profielen samen en begon toen aan monnikenwerk. Hij ging alle repositories handmatig door om te controleren of de software die gepubliceerd was, onderzoekssoftware was of software die voor iemands hobby was gemaakt. Door alle software te controleren, zorgde hij ervoor dat hij zijn onderzoek voorzag van een overzicht met onderzoekscode en -software. "In totaal vonden we 1500 repositories. Ik heb al deze repositories handmatig gelabeld. Dat is erg saai, kan ik je nu uit ervaring vertellen," zegt Keven lachend.

34% van de onderzoekscode en -software heeft geen licentie-informatie. Als iemand anders met deze onderzoekscode en -software wil kunnen werken, heb je een licentie nodig die hergebruik toestaat.

Wie is Keven Quach?

Portret of graduate Keven Quach, business informatics
Keven Quach, die in GitHub dook om te onderzoeken hoe FAIR de software van Utrechtse onderzoekers is

Keven Quach (1996) is geboren en getogen in Duitsland. Zijn ouders kwamen in de jaren zeventig als vluchtelingen uit Vietnam naar onze oosterburen. Na de middelbare school ging hij naar de Universiteit van Bamberg in Beieren, waar Keven een bacheloropleiding business informatics deed. Hij wilde zijn master in het buitenland doen en koos voor business informatics aan de Universiteit Utrecht, een studie die hem het interessantst leek. Sinds zijn afstuderen in november vorig jaar werkt Keven als software engineer bij Bosch in Friedrichshafen, Duitsland.

Honderd repositories per dag

Keven dacht dat hij honderd repositories per dag kon doen, maar hij was te optimistisch. Hij had ongeveer vijf tot zes weken nodig om alle repositories met de hand door te nemen. "Onderzoekssoftware is vaak werk in uitvoering", vervolgt Keven, "We hadden een manier nodig om uit te zoeken of de repository die we in onze dataset hebben echt een onderzoekscode of een softwarerepository is. Identificeren of iets onderzoeksoutput is of niet, was een uitdaging. En het is niet zo eenvoudig om dit automatisch te doen. Soms moest ik contact opnemen met de onderzoekers om te vragen of het onderzoekssoftware was of niet."  Door deze repositories te labelen, keek Keven ook naar de extra data. Zo leerde hij de dataset echt goed kennen.

In de derde fase van zijn onderzoek keek Keven naar verschillende variabelen, zoals:

  • Heeft de software een licentie?
  • Wordt versiebeheer correct gebruikt?
  • Is informatie over citaten beschikbaar?

Zo kon hij analyseren hoe FAIR de software en de code zijn. Dit zijn enkele van de resultaten:

"In de analyses van de onderzoekssoftware hebben we een FAIRness-score toegevoegd. Vervolgens hebben we de score van elke repository als één waarde opgeteld en vervolgens het gemiddelde genomen per gebruik voor elke faculteit. Dit deden we ook door verschillende soorten onderzoekssoftware te onderscheiden."

Opmerkelijke bevindingen

Na het verzamelen van al deze informatie begon Keven met het analyseren van de gegevens. Hij keek naar allerlei aspecten van de publicaties, zoals kwaliteit, FAIRness en populariteit van de onderzoekssoftware. Keven liet bijvoorbeeld zien bij welke faculteit elke publicatie hoorde. "Opvallend was dat ik geen repositories vond van de faculteit Recht, Economie, Bestuur en Organisatie. En de faculteit Diergeneeskunde had minder dan tien gepubliceerde repositories."

Er zijn waarschijnlijk twee redenen waarom er van deze faculteiten geen of weinig code en software te vinden is. "De eerste is dat onze zoektocht erg biased is naar de andere faculteiten in de manier waarop we gebruikers verzamelen. Als we bijvoorbeeld teruggaan naar de vorige zoekstrategieën, is 'PapersWithCode.com' vrij sterk gericht op machine learning. Daarom zal de Faculteit Bètawetenschappen en hoogstwaarschijnlijk geen enkele uitgever van Diergeneeskunde dit soort websites gebruiken. En natuurlijk staat niet alle code en software op GitHub. Er zal dus waarschijnlijk een onbekend niet gerapporteerd aantal onderzoekssoftware zijn dat wel bestaat, maar waar wij geen weet van hebben door de manier waarop wij dit hebben vastgelegd. De andere verklaring is dat sommige faculteiten gewoon niet zoveel onderzoekssoftware gebruiken."

Deze twee faculteiten werden daarom uitgesloten van verdere analyse. Ook de faculteit Geneeskunde is niet meegenomen in het onderzoek van Keven, omdat deze onderzoekers bij het UMCU werken en zij niet te vinden zijn op de medewerkerspagina's van de Universiteit Utrecht. De faculteit met de twee grootste GitHub-accounts qua repositories is Geesteswetenschappen, namelijk het Digital Humanities Lab en het Institute for Language Sciences Labs. "In het eerste Lab hebben ze al 80 repositories en in het laatste nog meer, namelijk 140."

Licentie voor hergebruik

Keven constateerde dat 66% van de onderzoekscode en -software een open licentie had. "Dat betekent dat 34% geen open licentie heeft. Als je geen licentie gebruikt en je publiceert iets, dan kan niemand de code legaal gebruiken. Het is standaard beschermd. Dus, tenzij je het een open licentie geeft, kan niemand je werk gebruiken. Je hebt een licentie nodig om hergebruik toe te staan. Een van mijn aanbevelingen is om onderzoekers te informeren om een licentie toe te voegen aan hun onderzoekssoftware. Dat doe je relatief eenvoudig."

Je vindt meer informatie over het licenseren en publiceren van je data en software op:

Programmeertalen

Keven maakte ook een overzicht van de programmeertalen die door Utrechtse onderzoekers worden gebruikt. Hij wilde weten of de gebruikte talen vrij en open zijn of commercieel en gesloten (bijv. Python versus MATLAB). Python en R zijn de meest gebruikte programmeertalen. Dit zijn open source talen, die op grote schaal kunnen worden hergebruikt. Python wordt het meest gebruikt binnen de Faculteit Bètawetenschappen, de Faculteit Sociale Wetenschappen is de grootste gebruiker van R.

Hoe FAIR is de software die Utrechtse onderzoekers ontwikkelen?

"Onderzoekers van de Universiteit Utrecht werken relatief FAIR als het gaat om onderzoekssoftware", zegt Keven. "We zien dat de ondersteunende afdelingen (bijvoorbeeld de Universiteitsbibliotheek en ITS) en de Faculteit Sociale Wetenschappen het beste presteren. Daarom zei ik 'relatief', want dat zien we alleen in relatie tot de andere faculteiten die we hebben onderzocht. Om meer FAIR te publiceren, kunnen collega's van de ondersteunende afdelingen en de Faculteit Sociale Wetenschappen anderen laten zien wat ze goed doen of hoe ze meer FAIR kunnen werken. Het uiteindelijke doel van FAIR is om het hergebruik van data, code en software te vergemakkelijken en dat is nog een continu proces aan de universiteit."

Wat we met deze bevindingen kunnen doen

Volgens Jonathan de Bruin zijn op basis van de resultaten van Keven's masterscriptie de volgende acties te ondernemen :

  • We kunnen proactief ondersteuning bieden in faculteiten waar weinig output te vinden is.
  • We kunnen structurele kwaliteitsproblemen integraal aanpakken.
  • We kunnen bewustzijn creëren binnen de organisatie.
  • We kunnen onderzoekers meer of betere informatie geven dan nu het geval is.

We willen het onderzoek na een jaar herhalen en zo de impact monitoren.

Wat is FAIR research IT?

De Universiteit Utrecht biedt haar onderzoekers IT-tools, diensten en infrastructuur om wetenschappers en onderzoeksondersteuners te ondersteunen in hun dagelijkse werk. Binnen de IT-afdeling bieden onderzoeksondersteuners bestaande en te ontwikkelen tools en diensten aan. FAIR research IT betekent dat we onze onderzoekers structurele en grootschalige oplossingen willen bieden, met de nadruk op herhaalbaarheid, zodat eerder bedachte of ontwikkelde oplossingen en kennis gemakkelijk door anderen kunnen worden hergebruikt. Deze nieuwe tools, diensten of infrastructuur voldoen aan de FAIR (Findable, Accessible, Interoperable, Reusable) principes.