Архив статей

DE MOGELIJKHEDEN VAN HET CORPUS GESPROKEN NEDERLANDS BIJ HET ONDERZOEK NAAR SOCIALE TAALVARIATIE IN HET NEDERLANDS (2025)
Выпуск: Т. 23 № 1 (2025)
Авторы: Темников Н.

Dit artikel richt zich op de mogelijkheden van het spraakcorpus Corpus Gesproken Nederlands (CGN) als hulpmiddel voor het onderzoek naar de sociale taalvariatie in het Nederlands. Het CGN, dat in de vorm van een webapplicatie beschikbaar is, omvat ongeveer duizend uur spraakopnames van sprekers uit Nederland en Vlaanderen, met een totaal van circa tien miljoen taalelementen, ook wel bekend als tokens (waaronder woordvormen, leestekens, aanduidingen van non-verbale uitingen en onverstaanbare spraak). Het corpus beschikt over een orthografische transcriptie en een fonetische transcriptie van de teksten, evenals annotaties — zowel linguïstische (morfologische) als extralinguïstische (informatie over de opgenomen fragmenten en de sprekers). Ondanks de aanzienlijke hoeveelheid taalmateriaal en de mogelijkheid om gebruik te maken van een reeks parameters, zoals sociale (leeftijd, geslacht, opleidingsniveau, sociale rol) en situationele (het CGN is onderverdeeld in veertien categorieën, die elk overeenkomen met een specifieke communicatieve situatie) parameters, zijn er fouten en onvolkomenheden in de morfologische en extralinguïstische annotatie. Ten eerste hebben we geconcludeerd dat niet alle linguïstische (morfologische) data van het CGN handmatig werden geverifieerd na de automatische verwerking, wat de onderzoeker dwingt de zoekresultaten extra te controleren. Ten tweede zijn de fragmenten waarin twee of meer sprekers voorkomen, voorzien van informatie alleen over één spreker, wat leidt tot onbetrouwbare resultaten met betrekking tot de verdeling van taalelementen over bepaalde sociale parameters, evenals tot de noodzaak om ons te beperken tot fragmenten die alleen monologische en, wat nog belangrijker is voor een dergelijk onderzoek, spontane spraak bevatten

Сохранить в закладках