Outomatiese genreklassifikasie vir Afrikaans

Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie/South African Journal of Science and Technology

 
 
Field Value
 
Title Outomatiese genreklassifikasie vir Afrikaans Automatic genre classification for Afrikaans
 
Creator Snyman, Dirk van Huyssteen, Gerhard Daelemans, Walter
 
Subject Mensetaaltegnologie; Natuurliketaalprosessering Genreklassifikasie, Hulpbronskaars Tale, Masjienleer, Mensetaaltegnologie, Natuurliketaalprosessering — —
Description Op die terrein van teksverwerking speel die metadata oor ’n bepaalde teks in baie gevalle ’n belangrike rol. Sodanige metadata word dikwels toegevoeg met behulp van outomatiese teksklassifiseerders wat op grond van die inhoud van ’n teks een of meer vooraf bepaalde klasse of kategorieë outomaties aan ’n teks toeken. Een van die dimensies waarvolgens ’n teks geklassifiseer kan word, is die genre van ’n teks en in hierdie studie word die ontwikkeling van ’n outomatiese genreklassifikasiesisteem in ’n hulpbronskaars omgewing voorgehou. (Ander dimensies sluit in: outeur van ’n teks, domein van tekste, informele teenoor formele tekste, ensovoorts.) Die artikel het ten doel om ’n eksperimentele ondersoek te loods na bestaande genreklassifikasiesisteme, en om dan die tegnieke en benaderings te implementeer vir Afrikaans (as voorbeeld van ’n hulpbronskaars taal). Met die ontwikkeling van ’n outomatiese genreklassifikasiesisteem is daar ’n reeks veranderlikes wat in gedagte gehou moet word en wat ’n invloed op die prestasie van masjienleerbenaderings het (d.i. die algoritme wat gebruik word, die hoeveelheid afrigtingsdata, en die datavoorstelling as eienskappe). As dié veranderlikes reg hanteer word en ’n optimale versameling van hierdie veranderlikes geïdentifiseer kan word, kan die ontwikkeling van ’n genreklassifikasiesisteem suksesvol gedoen word. In die studie word daar ’n genreklassifikasiesisteem daargestel deur gebruik te maak van die volgende benadering wat eksperimenteel geïdentifiseer is: Die implementering van ’n MNB-algoritme, afgerig met woordversamelingbenadering as eienskapstel. Dié sisteem lewer ’n resulterende f-telling (prestasiesyfer) van 0.929. When working in the terrain of text processing, metadata about a particular text plays an important role. Metadata is often generated, using automatic text classification systems which classify a text into one or more predefined classes or categories based on its contents. One of the dimensions by which a text can be can be classified, is its genre. In this study the development of an automatic genre classification system in a resource scarce environment is postulated. This study aimed to investigate the techniques and approaches that are generally used for automatic genre classification systems, and identify the best approach for Afrikaans (a resource scarce language). With the development of an automatic genre classification system, there is a set of variables that must be considered as they influence the performance of machine learning approaches (i.e. the algorithm used, the amount of training data, and data representation as features). If these variables are handled correctly, an optimal combination of them can be identified to successfully develop a genre classification system. In this article a genre classification system is being developed by using the following approach: The implementation of a MNB algorithm with a bag of words approach feature set. This system provides a resultant f-score (performance measure) of 0.929.
 
Publisher AOSIS
 
Contributor Departement van Kuns en Kultuur van die Suid-Afrikaanse regering Trifonius Sentrum vir Tekstegnologie (CTexT®), Noordwes-Universiteit Universiteit van Antwerpen —
Date 2014-11-24
 
Type info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion — Masjienleer; Genreklassifikasie — —
Format text/html application/octet-stream text/xml application/pdf
Identifier 10.4102/satnt.v33i1.759
 
Source Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie; Vol 33, No 1 (2014); 12 bladsye Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie; Vol 33, No 1 (2014); 12 bladsye 2222-4173 0254-3486
 
Language eng
 
Relation
The following web links (URLs) may trigger a file download or direct you to an alternative webpage to gain access to a publication file format of the published article:

https://journals.satnt.aosis.co.za/index.php/satnt/article/view/759/2797 https://journals.satnt.aosis.co.za/index.php/satnt/article/view/759/2798 https://journals.satnt.aosis.co.za/index.php/satnt/article/view/759/2799 https://journals.satnt.aosis.co.za/index.php/satnt/article/view/759/2747
 
Coverage — — — — — —
Rights Copyright (c) 2014 Dirk Snyman, Gerhard van Huyssteen, Walter Daelemans https://creativecommons.org/licenses/by/4.0
ADVERTISEMENT