Dit artikel richt zich op de mogelijkheden van het spraakcorpus Corpus Gesproken Nederlands (CGN) als hulpmiddel voor het onderzoek naar de sociale taalvariatie in het Nederlands. Het CGN, dat in de vorm van een webapplicatie beschikbaar is, omvat ongeveer duizend uur spraakopnames van sprekers uit Nederland en Vlaanderen, met een totaal van circa tien miljoen taalelementen, ook wel bekend als tokens (waaronder woordvormen, leestekens, aanduidingen van non-verbale uitingen en onverstaanbare spraak). Het corpus beschikt over een orthografische transcriptie en een fonetische transcriptie van de teksten, evenals annotaties — zowel linguïstische (morfologische) als extralinguïstische (informatie over de opgenomen fragmenten en de sprekers). Ondanks de aanzienlijke hoeveelheid taalmateriaal en de mogelijkheid om gebruik te maken van een reeks parameters, zoals sociale (leeftijd, geslacht, opleidingsniveau, sociale rol) en situationele (het CGN is onderverdeeld in veertien categorieën, die elk overeenkomen met een specifieke communicatieve situatie) parameters, zijn er fouten en onvolkomenheden in de morfologische en extralinguïstische annotatie. Ten eerste hebben we geconcludeerd dat niet alle linguïstische (morfologische) data van het CGN handmatig werden geverifieerd na de automatische verwerking, wat de onderzoeker dwingt de zoekresultaten extra te controleren. Ten tweede zijn de fragmenten waarin twee of meer sprekers voorkomen, voorzien van informatie alleen over één spreker, wat leidt tot onbetrouwbare resultaten met betrekking tot de verdeling van taalelementen over bepaalde sociale parameters, evenals tot de noodzaak om ons te beperken tot fragmenten die alleen monologische en, wat nog belangrijker is voor een dergelijk onderzoek, spontane spraak bevatten
Dit artikel is gewijd aan de vorming van de voltooide perfectum-vorm van het werkwoord zijn in de Oost-Vlaamse en West-Vlaamse dialecten van de Nederlandse taal. Het begint met een historische uiteenzetting over hoe het werkwoord zijn door de eeuwen heen werd gebruikt in het perfectum. Het onderzoek zelf werd uitgevoerd op basis van “Stemmen uit het Verleden”, een verzameling dialectbanden van de Universiteit Gent die bestaat uit opnames van gesprekken met sprekers van verschillende Vlaamse dialecten. Op basis van een aantal criteria zijn opnames uit drie plaatsen (Gent, Sint-Niklaas en Brugge) onderzocht, gemaakt tussen 1963 en 1965. Het onderzoek toonde aan dat zowel in het Oost-Vlaamse als in het West-Vlaamse dialectgebied in de overgrote meerderheid van de gevallen de vorm hebben geweest in plaats van zijn geweest wordt gebruikt. Er kon geen regelmaat worden vastgesteld die de keuze voor de ene of de andere vorm bepaalde. Ze komen vaak samen voor, zelfs binnen dezelfde spraakuiting. Speciale aandacht wordt besteed aan de vorming van de conditionalis van het werkwoord zijn en een aantal andere werkwoorden. Ondanks het feit dat ze in de aantonende wijs perfectum vormen met het werkwoord zijn, vormen ze in het onderzochte materiaal perfectum in de voorwaardelijke wijs met het hulpwerkwoord hebben