Analyse van 7 miljoen zoektermen in de educatieve zoekmachine Edurep

Auteur: Lotte Baltussen. Met dank aan: Wim Muskee

Dit artikel is deel 2 in een serie van 4 uitgebreide artikelen over het onderzoeksproject over veelgebruikte termen in het onderwijs en hoe je die zou kunnen gebruiken om lesmaterialen te labelen (metadateren). In artikel 1 vind je een overzicht van welke termen we nog meer verzamelden, in het 3e artikel lees je over hoe we geautomatiseerd termen haalden uit SLO doelen en in deel 4 staat het Linked Data model beschreven waarmee we de termen modelleerden.

Een meer beknopte versie vind je in de publicatie ‘Zo zorg je dat leraren en leerlingen jouw digitale lesmateriaal goed kunnen vinden. Praktische inzichten en tips voor culturele instellingen’. Hierin staan ook visuele scenario’s van de manier waarop leraren en leerlingen zoeken, voorbeelden en concrete tips voor het vergroten van de vindbaarheid van jouw lesmateriaal.

In het programma ‘Digitaal Erfgoed voor het Onderwijs’ werkten Kennisnet en het Netwerk Digitaal Erfgoed (NDE) samen om erfgoed, met behulp van ict, structureel een plek in het onderwijs te geven. Een van de vragen in het programma was: hoe kunnen musea, archieven en andere culturele instellingen hun onderwijsaanbod beter vindbaar maken?

Een van de bronnen die deels antwoord op deze vraag kon geven was voorhanden: handmatig ingevoerde zoekopdrachten in Edurep, de educatieve zoekmachine waar onder meer Wikiwijs gebruik van maakt. Andere gebruikers van Edurep zijn elektronische leeromgevingen van scholen en andere aangesloten portals, zoals Schoolbordportaal. Edurep wordt dus veelvuldig bevraagd door systemen waar vooral leraren gebruik van maken. Daarmee beschikt Edurep over veel zoektermen waarmee leraren zoeken.

Door te kijken naar hun zoektermen hoopten Kennisnet en NDE meer inzicht te krijgen in hoe leraren zoeken, en welke termen ze hierbij gebruiken. Hiervoor werden de zoektermen in Edurep geanalyseerd in de periode 2017-2019. In totaal gaat het om 7 miljoen zoekopdrachten. De lessen hiervan vind je in deze blogpost.

De dataset

De hele dataset bevat 251.665 unieke zoekopdrachten en 7.062.182 zoekopdrachten in totaal. Deze zoekopdrachten zijn handmatig ingevoerd; eventuele filters die zijn gebruikt in combinatie met de handmatig ingevoerde zoekopdrachten zijn niet meegenomen. Dit geldt ook voor Booleans (bijv.: OR, AND, NOT). Zoekopdrachten zijn niet te herleiden naar individuele gebruikers.

Simpele zoekopdrachten: 1 of 2 termen zijn de norm

De meeste zoekopdrachten bevatten 1 term (88.547) of 2 termen (86.442). Deze zoekopdrachten zijn goed voor bijna 70% van het totaal. Daarna volgt een long tail van zoekopdrachten die meer termen bevatten zijn, van 3 tot 117. Zoekopdrachten worden dus relatief simpel en eenduidig geformuleerd.

Staafdiagram met het aantal termen per zoekopdracht. De horizontale as loopt voor de leesbaarheid slechts door tot 27. Daarna komen termen met een x aantal zoekopdrachten slechts 1-2 keer voor.

Figuur 1: Aantal termen per zoekopdracht. De horizontale as loopt voor de leesbaarheid slechts door tot 27. Daarna komen termen met een x aantal zoekopdrachten slechts 1-2 keer voor.

Overgrote deel zoekopdrachten zit in de top 1.000

We wilden zoveel mogelijk zoekopdrachten handmatig analyseren, maar vanwege de grote aantallen moesten we keuzes maken. Daarom brachten we in kaart hoe vaak de unieke zoekopdrachten voorkwamen en welk deel van het totaal ze representeren:

  • De top 100 unieke zoekopdrachten zijn goed voor 57% van het totaal (4.002.925 zoekopdrachten).
  • De top 500 unieke zoekopdrachten zijn goed voor 70% van het totaal (4.993.300 zoekopdrachten).
  • De top 1.000 unieke zoekopdrachten voor 75% van het totaal (5.288.687 zoekopdrachten).

Hoewel er dus nog een long tail is van 25% van zeer uiteenlopende zoekopdrachten is top 1.000 een stuk dichter bevolkt dan een klassieke verdeling (zie hieronder). Dat komt wellicht onder andere doordat de Edurep database heel specifieke informatie bevat, namelijk lesmateriaal, en dat de zoekopdrachten hierdoor gerichter zijn.

Grafiek met gecombineerde inzichten van onderzoeken van Hitwise en MOZ naar zoekverkeer, waarbij de long tail goed is voor 70% van het zoekverkeer.

Figuur 2: Gecombineerde inzichten van onderzoeken van Hitwise en MOZ naar zoekverkeer, waarbij de long tail goed is voor 70% van het zoekverkeer. Zie ook: https://web.archive.org/web/20200718020912/https://blog.hittail.com/2016/04/21/the-hidden-value-of-long-tail-seo/

Meestvoorkomende type termen

De top 1.000 zoekopdrachten staan voor 75% van het totaal aantal uitgevoerde zoekopdrachten. Dit is een representatief aandeel, en was relatief eenvoudig handmatig verder te analyseren. Dit hebben we dan ook gedaan. We hebben de termen onder meer ingedeeld in onderstaande concepttypen.

Meestvoorkomende concepttypes Percentage top 1.000
Onderwerp: begrip (bijv.: verkeer, muziek) 50%
Querylink/startpagina (bijv.: natuur- en milieueducatie nme) 26%
Vakleergebied (bijv.: geschiedenis

aardrijkskunde)

11%
Werkvorm (bijv.: werkblad) 8%
Niveau (bijv.: havo) 5%
Onderwerp: gebeurtenis (bijv.: Kerst, Sinterklaas, Tweede Wereldoorlog) 4,5%
Voorbeelden van andere concepttypes
Onderwerp: persoon (bijv.: Anne Frank), Onderwerp: locatie (bijv.: Rome, Egypte), Onderwerp: periode (bijv.: Verlichting),

Tabel 1: Samenvatting concepttypes in top 1.000-zoekopdrachten. NB: Een zoekopdracht kan meerdere concepttypes bevatten. De percentages zijn opgeteld dan ook groter dan 100%.

Onderwerp: begrippen (50%)

Een begrip is een onderwerp dat beschrijft waar iets over gaat. “Moderne dans” en “paarden” zijn begrippen. Begrippen kunnen ambigue zijn. De zoekterm “arm” kan bijvoorbeeld gaan over het lichaamsdeel of een economische situatie. “Google”, “de Slag bij Waterloo” en “Napoleon” zijn named entities: specifieke en unieke entiteiten. In dit geval, respectievelijk: een organisatie, een gebeurtenis en een persoonsnaam. Andere voorbeelden van named entities zijn plaatsnamen en gebeurtenissen.

De top 1.000 zoekopdrachten bevatten in de helft van de gevallen een begrip (499 keer). Het komt voor dat een begrip gecombineerd is met een ander concepttype. De voorbeelden hieronder illustreren de verschillende manieren waarop begrippen terugkomen in de zoekopdrachten.

  • “verkeer” staat op de 3e plek van meest voorkomende zoekopdrachten. Dit is een voorbeeld van enkel, op zichzelf staand begrip. Het komt ook voor in vier van de SLO kerndoelen.
  • “sport voetbal hockey tennis atletiek kinderboekenweek” is een voorbeeld van een samengestelde zoekopdracht waarin zowel begrippen zitten als een gebeurtenis (“kinderboekenweek”).
  • sommige begrippen zijn vrij specifiek (“amerikaanse burgeroorlog”, “gewasbescherming”), andere zijn erg generiek (“natuur”) of ambigue (“arm”) en lastig te duiden.

Ondanks de vaak generieke of veelomvattende onderwerpen in de top 1.000, komen een aantal begrippen dus erg veel voor. Daarbij bestaan veel zoekacties uit 1 of 2 termen. Dit geeft aan dat de meeste zoekacties niet erg complex zijn.

Querylinks / startpagina’s (26%)

In totaal staan er 264 zoekopdrachten in de top 1.000 die bestaan uit veel woorden, en waarvan kan worden aangenomen dat ze niet iedere keer door individuele gebruikers zijn ingevoerd. Het zijn vooraf samengestelde ‘querylinks’, waar vervolgens door meerdere gebruikers op geklikt is. Een querylink bestaat vaak uit een combinatie van begrippen, andere concepttypen en onderwijskundige metadata, zoals vakken en leerniveaus.

Als een gebruiker op een querylink klikt, ziet Edurep dit als een zoekopdracht. Querylinks komen onder andere veel voor op Wikiwijs Themapagina’s.

Screenshot van de Wikiwijs Themapagina over erfgoed. Op deze pagina kun je op onderwerpen doorklikken. De links waarop je kunt klikken zijn querylinks, waar een vooraf samengestelde zoekopdracht achter zit.

Afbeelding 1: Vanuit de Wikiwijs Themapagina over erfgoed kun je op onderwerpen doorklikken. De links waarop je kunt klikken zijn querylinks, waar een vooraf samengestelde zoekopdracht achter zit. Zie https://www.wikiwijs.nl/startpagina/erfgoed/.

Een voorbeeld van een querylink is “natuur- en milieueducatie nme”. Dit is de nummer 2 zoekopdracht; deze komt 748,245 voor in onze dataset. Van deze zoekopdracht kan worden aangenomen dat deze niet iedere keer letterlijk is ingetypt, maar dat er een link is waar deze zoekopdracht in voorkomt waar veel mensen op klikken.

Van de 264 querylinks komen er 66 voor in de top 100 zoekopdrachten. Er zijn handmatig 77 querylinks geïdentificeerd die op een Wikiwijs startpagina staan (het was helaas te tijdrovend om dit ook voor de andere links uit te zoeken). Dit wijst erop dat de startpagina’s en eventueel extern geplaatste querylinks leraren helpen bij het vinden van lesmateriaal.

Vakleergebied (11%)

In het Nederlandse curriculum bestaan zowel afgebakende vakken (bijv.: natuurkunde) en bredere leergebieden (bijv.: kunstzinnige oriëntatie). Omdat ze naast elkaar kunnen bestaan of kunnen overlappen wordt de combinatieterm vakleergebied gebruikt.

Er wordt veel gezocht op vakleergebied, soms als losstaande zoekopdracht (“biologie”), maar ook vaak in combinatie met een andere kwalificatie (“biologie havo 4”). Dit kwam in totaal 113 keer voor in de top 1.000.

Als losstaande zoekopdracht ziet de verdeling van vakleergebieden er als volgt uit:

Positie Totaal zoekopdrachten Zoekopdracht
4 85.737 muziek
5 80.671 geschiedenis
6 78.243 aardrijkskunde
22 31.871 rekenen
23 31.687 nederlands
26 29.226 bewegingsonderwijs
29 27.618 engels
37 23.795 wiskunde
40 22.383 biologie
54 18.313 duits
61 16.797 economie
72 13.565 scheikunde
95 10.361 frans
109 8.871 natuurkunde
112 8.670 burgerschap
132 5.683 maatschappijleer
137 5.429 verzorging
180 3.533 levensbeschouwing
184 3.473 ckv
239 2.296 lichamelijke opvoeding
258 2.002 zorg en welzijn
267 1.918 latijn
316 1.512 handvaardigheid
401 1.147 grieks
963 963 mens en maatschappij

Tabel 2: de vakleergebieden in de top 1.000 zoektermen

Werkvorm (8%)

Bijna 8% van de top 1.000 zoekopdrachten bevatten een werkvorm. In de top 100 zijn dit vooral querylinks, zoals “lezen luisteren lees technisch technischlezen technischlee duo tutor duolezen tutorlezen” of “sinterklaas prentenboek”. Daarna worden de opdrachten wat korter, maar soms ook wat onduidelijker, zoals “buitenactiviteiten”, “galgje” en “game”.

Niveau (5%)

Zo’n 5% van de zoekopdrachten in de top 1000 bevatten een niveau. Niveau komt voor als losstaande zoekopdracht (“vmbo” of “havo 4”), of in combinatie met een ander type term (“biologie vmbo” of “scheikunde havo”). De combinatie met vakleergebied kwam 25 keer voor, met biologie als meest voorkomende combinatie (5 x).

Onderwerp: gebeurtenissen (4,5%)

Zoekopdrachten omtrent gebeurtenissen, zoals feestdagen, seizoenen en evenementen zijn populair. Ze komen 45 keer voor in de top 1.000, waarvan 19 keer in de top 100. Dit duidt erop dat het belangrijk is om lesmateriaal te maken dat aansluit op de actualiteit.

In de top 10 zijn Kerst (nr. 7) en Sinterklaas (nr. 8) te vinden, maar wel in combinatie met andere termen die doen vermoeden dat het om querylinks gaat: “kerst jezus christus” en “stoomboot sinterklaas”. Op 11, 13 en 14 komen respectievelijk de seizoenen winter, zomer en lente voor, als onderdeel van langere querylinks zoals “winter sneeuw schaats ijs ski”.

In onderstaande tabel zijn de gebeurtenissen die voorkomen in top 1.000 in chronologische volgorde geplaatst:

Maand Gebeurtenis Maand Gebeurtenis
Januari Winter

Winterspelen

Juli Zomer

Zomerfeest

Zomerspelen

Februari Carnaval

Winter

Winterspelen

Augustus Zomer

Zomerspelen

Maart Carnaval

Lente

Pasen

Winter

September Herfst

Kinderboekenweek

Prinsjesdag

Zomer

April Hemelvaart

Koningsdag

Koningsspelen

Lente

Pasen

Oktober Dierendag

Halloween

Herfst

Kinderboekenweek

Mei Bevrijdingsdag

Dodenherdenking

Hemelvaart

Lente

Moederdag

Pinksteren

Zomerfeest

November Herfst

Sint-Maarten

Juni Hemelvaart

Lente

Pinksteren

Vaderdag

Zomer

Zomerfeest

December Herfst

Kerst

Sinterklaas

Winter

Niet in tijd te plaatsen gebeurtenissen: Olympische spelen, Schoolreisje, Vandaag, Verjaardag

Tabel 3: kalender van de gebeurtenissen in de top 1.000 zoekopdrachten

Algemene taal zoekopdrachten (6%)

Er wordt veel gezocht op woorden die met taal te maken hebben, zoals “dictee”. Dit komt 63 keer voor in de top 1.000 (6%). In de top 100 staan enkel zoekopdrachten die waarschijnlijk samengestelde querylinks zijn, zoals “spelling dictee dyslectie schrijfwijze spellingsregel spellingregel” en “opstel schrijven steloefening stellen”. Hierbij ontbreekt de kwalificatie van het vak, zoals “nederlands” of “engels”, waarschijnlijk deels doordat filters zoals vakleergebied niet in de dataset zitten.

Buiten de top 100 zijn de taalgerelateerde opdrachten generieker: “lezen”, “woordenschat” en “present simple” zijn hier voorbeelden van.

Lesmethode/lespakket (3%)

In de top 1.000 komen 30 zoekopdrachten (3%) voor die de naam van een lesmethode of lespakket bevatten. “Veilig leren lezen” komt het meeste voor in verschillende combinaties en spellingsvarianten: 7 keer in totaal. De tweede plek is voor “Biologie voor jou” (4 keer).

Diversen

Er zijn nog andere concepttypes die niet veel voorkomen in (delen van) zoekopdrachten. Deze diverse concepttypes zijn:

  • Arrangement / arrangementmakers in Wikiwijs maken: komt 18 keer voor. Voorbeelden: “techniekmeppel”, “klimaat bonhoeffer”. (zie de Wikiwijs FAQ voor uitleg over arrangementen)
  • Bron: komt 12 keer voor. Voorbeelden: “klokhuis”, “schooltv”, “video”.
  • Geografische naam: komt 10 keer voor. Voorbeelden: “nederland”, “afrika”.
  • Persoonsnaam: komt 9 keer voor. Voorbeelden: “anne frank”, “napoleon”.
  • Toetsing: komt 4 keer voor. Erg weinig, en dat is opvallend. Voorbeelden: “cito” en “toetsen”.
  • Onduidelijke zoekopdrachten: komt 80 keer voor. Dit zijn zoekopdrachten waarbij geen (goede) inschatting kon worden gemaakt van het verwachte resultaat van de zoeker. Voorbeelden: “maarten”, “1” en “tot 20”.

Vervolgstappen en verder onderzoek

De analyse van de dataset heeft veel inzicht gegeven in hoe leraren zoeken en welke termen hierbij voor hen belangrijk zijn. Dit inzicht is gecombineerd met ander onderzoek in de publicatie ‘Zo zorg je dat leraren en leerlingen jouw digitale lesmateriaal goed kunnen vinden. Praktische inzichten en tips voor culturele instellingen’.

Er is echter meer onderzoek nodig om nog beter inzicht te krijgen in hoe leraren zoeken en in hoeverre de zoekresultaten die zij krijgen voldoen aan hun vraag. Daarbij ontbreekt het perspectief van leerlingen in dit onderzoek, omdat we geen beschikking hebben over zoekopdrachten van deze doelgroep. Het zou goed zijn als andere partijen in het onderwijs ook data over zoekopdrachten delen, zodat we gezamenlijk meer kennis opbouwen en beter kunnen aansluiten bij wat en hoe leraren en leerlingen zoeken.

 

Licentie: Creative Commons Naamsvermelding 4.0 (CC BY 4.0)