Snyman, Van Huyssteen & Daelemans 2014

Snyman, Dirk P., Gerhard B. Van Huyssteen, and Walter Daelemans. 2014. “Outomatiese genreklassifikasie vir Afrikaans [Automatic genre classification for Afrikaans].”

English: Afrikaans, genre, genre classification, human language technology, machine learning

Afrikaans: Afrikaans, genre, genreklassifikasie, masjienleer, mensetaaltegnologie

English: When working in the terrain of text processing; metadata about a particular text plays an important role. Metadata is often generated; using automatic text classification systems which classify a text into one or more predefined classes or categories based on its contents. One of the dimensions by which a text can be can be classified; is its genre. In this study the development of an automatic genre classification system in a resource scarce environment is postulated. This study aimed to investigate the techniques and approaches that are generally used for automatic genre classification systems; and identify the best approach for Afrikaans (a resource scarce language). With the development of an automatic genre classification system; there is a set of variables that must be considered as they influence the performance of machine learning approaches (i.e. the algorithm used; the amount of training data; and data representation as features). If these variables are handled correctly; an optimal combination of them can be identified to successfully develop a genre classification system. In this article a genre classification system is being developed by using the following approach: The implementation of a MNB algorithm with a bag of words approach feature set. This system provides a resultant f-score (performance measure) of 0.929.


Afrikaans: Op die terrein van teksverwerking speel die metadata oor ’n bepaalde teks in baie gevalle ’n belangrike rol. Sodanige metadata word dikwels toegevoeg met behulp van outomatiese teksklassifiseerders wat op grond van die inhoud van ’n teks een of meer vooraf bepaalde klasse of kategorieë outomaties aan ’n teks toeken. Een van die dimensies waarvolgens ’n teks geklassifiseer kan word; is die genre van ’n teks en in hierdie studie word die ontwikkeling van ’n outomatiese genreklassifikasiesisteem in ’n hulpbronskaars omgewing voorgehou. (Ander dimensies sluit in: outeur van ’n teks; domein van tekste; informele teenoor formele tekste; ensovoorts.) Die artikel het ten doel om ’n eksperimentele ondersoek te loods na bestaande genreklassifikasiesisteme; en om dan die tegnieke en benaderings te implementeer vir Afrikaans (as voorbeeld van ’n hulpbronskaars taal). Met die ontwikkeling van ’n outomatiese genreklassifikasiesisteem is daar ’n reeks veranderlikes wat in gedagte gehou moet word en wat ’n invloed op die prestasie van masjienleerbenaderings het (d.i. die algoritme wat gebruik word; die hoeveelheid afrigtingsdata; en die datavoorstelling as eienskappe). As  dié veranderlikes reg hanteer word en ’n optimale versameling van hierdie veranderlikes geïdentifiseer kan word; kan die ontwikkeling van ’n genreklassifikasiesisteem suksesvol gedoen word. In die studie word daar ’n genreklassifikasiesisteem daargestel deur gebruik te maak van die volgende benadering wat eksperimenteel geïdentifiseer is: Die implementering van ’n MNB-algoritme; afgerig met woordversamelingbenadering as eienskapstel. Dié sisteem lewer ’n resulterende f-telling (prestasiesyfer) van 0.929.

In: Afrikaans

On: Afrikaans