Dit artikel verscheen in het blad Computer Info / Net Info in september 
1996 en is geschreven door Frans Goddijn & Peter van Zeeland.

**************************************************************************
* Artikel over Woordenlijst, sept nr.  NET Info                    G&vZ  *
**************************************************************************

(begin koptekstje)

Met de nieuwe spelling van de Nederlandse taal, door een commissie van
taalkundigen voorbereid en door onze regering ingevoerd, is ook een
nieuwe handel ontstaan, een handel die niet levert wat hij lijkt te
leveren.

Ik wilde graag een nieuwe, correcte Nederlandse woordenlijst om tegen
mijn spellingchecker te zeggen: ``Kijk, dit zijn vanaf nu de
Nederlandse woorden, en als ik een woord gebruik dat er niet in staat,
geef dan even een gil ja?'' Ik heb geen nieuwe spellingchecker nodig,
ook geen nieuwe tekstverwerker, alleen een nieuwe lijst met
woorden. Dat leek bijna onmogelijk, maar het is nu door een kleine
groep vrijwilligers gerealiseerd.

(einde koptekstje)

Diverse leveranciers staan klaar om ons onze eigen taal te verkopen:
UbiQ BV in Montfoort (0348-475385) heeft een floppy voor krap dertig
gulden, echter wie dan denkt een woordenlijst te kopen, krijgt een
verrassing: er zitten wel 160.000 woorden op de floppy maar je kunt er
niet bij. Sterker, ze kunnen er zelf ook niet bij want ``de
woordenlijst is gecomprimeerd en komt van Novell in Amerika. Hij is
bedoeld voor gebruikers van WP die er hun spell checker mee kunnen
updaten'', aldus de leverancier. Zijn we dan zover gezakt dat we de
woorden van ONZE EIGEN TAAL moeten kopen in de Verenigde Staten van
Amerika?!

Hans Hagen (pragma@pi.net) schreef me: ``Alle pogingen van commissies
ten spijt, wordt taal gemaakt door de gebruikers. Het is dan ook te
gek voor woorden dat diezelfde gebruikers moeten betalen om de door de
overheid voorgeschreven woorden te mogen gebruiken.''

INP (Postbus 765 2270 AP Voorburg) levert ook een oplossing, namelijk
een floppy waarmee WP-gebruikers hun bestaande woordenlijst kunnen
bijwerken. Niet alle woorden zijn veranderd: er moeten volgens INP
ongeveer 1200 woorden weg en er komen zo'n 4800 woorden woorden bij om
de WP-gebruiker in de hedendaagse spelling te laten schrijven. Leuk
voor de WP-gebruiker, maar ik stel nu eenmaal wat hogere eisen aan
mijn zetwerk dan met WP mogelijk is.

En bovendien is het de vraag of het voldoende is, aldus Hans Hagen:
``Onze taal kenmerkt zich door een grote hoeveelheid woorden. Dit is
een direct gevolg van het feit dat veel woorden te combineren zijn tot
nieuwe. Deze combinaties leiden vervolgens weer tot afspraken over de
verbindende letters, zoals een `n' of een `s'. Als de volledige
woordenlijst van de nederlandse taal vele meters beslaat en het Groene
Boekje maar enkele centimeters dik is, hoe weet je dan zeker of iets
goed geschreven is? De technisch wetenschappelijke wereld heeft
daarnaast nog een geheel eigen woordenschat, aangevuld met wederom een
veelheid aan combinaties. Gelukkig is deze wereld uitstekend in staat
de eigen hulpmiddelen te creeeren om teksten op spelling te
controleren, maar waar haal je de juiste spelling vandaan?''

``In de TeX-wereld bijvoorbeeld, waar een gebruiksvriendelijke
interface bij de invoer van tekst veel minder belangrijk wordt
gevonden dan de typografische kwaliteit van de uitvoer, wordt
hoofdzakelijk gebruik gemaakt van ASCII teksten'', zo redeneert Hans
Hagen. ``Bij het controleren op de juiste spelling worden eveneens in
ASCII vastgelegde woordenlijsten gebruikt. De gecodeerde
woordenlijsten van commercieele tekstverwerkers, zoals WP en MSWORD
zijn daarbij onbruikbaar. Commissies die een wijziging in de spelling
voorstellen zonder zorg te dragen voor voor ieder toegankelijke
bestanden in ASCII formaat, schieten dus deels hun doel voorbij.''

Maar zelfs voor WP gebruikers is het niet alles goud wat er
blinkt. ``De spellingchecker van Prisma is voorlopig niet aan te
raden'', zo schreef Henk Langerak van het AD in Rotterdam
(Langerak@du.nrc.nl). ``Hij werkt in elk geval niet in WP 6.0a en
6.0b. Daarin gooit ie heel veel woorden weg. Hij herkent veel woorden
niet en zeker niet de nieuwe spelling.''

SDU (070-3789911) is marktleider met het Groene Boekje (``onvolledig,
onsystematisch en gebruiksonvriendelijk'' aldus Onze Taal), maar de
beoogde lancering in januari van de elektronische versie van het
Groene Boekje was uitgesteld tot juni dit jaar. Oorzaak hiervan was
het grote aantal verschillen tussen dit boekje en de Dikke van
Dale. Die moesten eerst zoveel mogelijk worden gecorrigeerd. De kopers
van het Elektronische Groene Boekje (EGB) zijn daarmee in het voordeel
vergeleken bij de mensen die het papieren boekje
kochten. Overzichtelijk is het zeker en systematisch is het
ook. Gebruiksvriendelijk zou je het kunnen noemen als je ziet hoe de
SDU erin is geslaagd de woorden van onze taal te verpakken in een user
interface als een etalageruit: je kunt de woorden op allerlei manieren
bekijken maar je kunt er niet ``bij''.

Ben je aan het schrijven en twijfel je aan de spelling van een woord,
dan kun je het EGB starten en je zoekt informatie over het woord. Het
EGB is echter traag, erg traag: een woord vinden kost enkele tot vele
seconden, bijna even lang als het kost om hetzelfde woord in de
papieren versie op te zoeken. Wachten of bladeren, het is kiezen
tussen twee kwaden. Een heel document op deze manier controleren is
onbegonnen werk.

Je kunt met het EGB ook dictees maken en met anagrammen goochelen. Ook
kun je een verhaal over de nieuwe spellingsregels lezen, maar een ding
kun je niet en dat is wat mij betreft het enige van serieus belang:
een leesbare lijst van woorden genereren.

En dat terwijl er GRATIS spellingcheckers zijn die beter zijn dan die
van WP! AMSpell bijvoorbeeld, geschreven en onderhouden door
A. Merckens en Erik Frambach, met woordenlijsten voor Nederlands (oude
spelling), Engels, Amerikaans, Frans, Duits, Italiaans en Spaans.

Ook bij het bedrijf van Hans Hagen (PRAGMA, 038-4229775) heeft men een
spellingchecker (TeXspell) gemaakt die gratis mag worden
verspreid. Zelf gebruiken ze deze samen met de editor TeXedit, maar
hij is ook afzonderlijk te gebruiken. ``Met TeXSpell kunnen teksten
worden gecontroleerd op foutief gespelde woorden. Men kan daarbij
werken met verschillende lijsten, bijvoorbeeld een die grotendeels
overeenkomt met het Groene Boekje (ruim 100.000 woorden). Bij het
ontwikkelen van cursusmateriaal gebruiken we echter meestal een zelf
samengestelde lijst van ruim 30.000 woorden, die slechts gedeeltelijk
overlapt met de groene lijst. Er zijn dus net zoveel boekjes als
kleuren.''

``In TeXEdit kan men real-time een tekst op de juiste spelling
controleren. De juist gespelde woorden worden groen weergegeven, de
foute woorden rood en woorden beneden een bepaalde omvang,
bijvoorbeeld 4 karakters, wit. Het blijkt dat een op deze manier
gekleurde file snel `in orde' te brengen is, niet in de laatste plaats
omdat accenten automatisch worden geplaatst. Bovendien worden bepaalde
categorieeen woorden, zoals passieve werkwoorden, geel of cyaan
weergegeven, zodat men snel een `beeld' van de stijl krijgt. Om dit
alles te kunnen ondersteunen, moeten we kunnen beschikken over goede,
al dan niet zelf samengestelde, lijsten van woorden.''

Wat zou er nu meer voor de hand liggen dan een nieuwe, correcte
woordenlijst te maken waar iedere tekstverwerker en iedere
spellingchecker op ieder computersysteem in ieder land mee uit de
voeten kan?

Deze vraag leidde tot het ontstaan van een lexicografisch A-team
(W-team) van mensen die vanuit hun woon- en werkplaatsen verspreid
over heel Nederland hebben gewerkt aan een grote, correcte en bovenal
kosteloze Nederlandse woordenlijst voor iedere gebruiker.

Het simpelst zou het natuurlijk zijn als iemand alle woorden uit het
EGB zou halen. Hans Linders van de TU in Eindhoven liet zien dat dit
zonder al te veel omhaal mogelijk is, maar de woordenlijst die hieruit
rolde kan niet zomaar worden verspreid. Het was dankzij Linders wel
mogelijk om duizenden woorden in het Groene Boekje op te zoeken zonder
dat er dagen voor moest worden gebladerd of gewacht.

Op het Internet zijn hier en daar Nederlandse woordenlijsten te
vinden, zelfs exemplaren van het EGB uit 1954 en 1990 (het eerste is
nog ``gered'' uit de stroken geponst papier waarop destijds de data
werden bewaard), bijvoorbeeld op gopher://olt.et.tudelft.nl:72/1/words
en ftp://ftp.nl.net (pub/textproc/dictionaries).

De vraag is echter of die woordenlijsten ``vrij'' zijn. Erick
Branderhorst (branderh@debian.iaehv.nl), lid van het `W-team'
hierover:

``Internet en free software zijn onlosmakelijk met elkaar verbonden.
Velen zijn bekend met bijvoorbeeld de GNU, XFree, TeX en talloze
andere soortgelijke projecten.  Het vrij ter beschikking stellen van
software houdt echter niet op bij het aanbieden van een bestandje op
een server en het in een Nieuwsgroep bekend maken van dit
bestandje. Het is wel degelijk belangrijk dat er duidelijk bij vermeld
wordt wie het wel en wie het niet mag gebruiken en onder welke
voorwaarden.''

``Van alle vrij beschikbaar gestelde lijsten van Nederlandse woorden
hebben we geen enkele lijst kunnen vinden waarvoor dit duidelijk was
omschreven.  De herkomst van de lijsten is vaak duister en niemand
heeft klaarblijkelijk de moeite genomen om voorwaarden aan het gebruik
afdoende te definieren.  Wij willen voor eens en voor altijd een einde
aan deze situatie maken en een pakket met Nederlandse woordenlijsten,
afbreekpatronen en aanverwante zaken vormen en dit distribueren onder
de voorwaarden zoals gesteld in de General Public License II
(GPL). Vrij vertaald behelst de GPL het volgende: je mag alles doen
met dit pakket wat je wilt, als je er maar voor zorgt dat je alles wat
jij kreeg ook weer beschikbaar stelt aan anderen.''

We kozen voor het gebruik van een woordenlijst die niet van de
EGB-redactie afkomstig was. Erik Frambach (E.H.M.Frambach@eco.rug.nl)
had er al eens eentje gecompileerd voor het gebruik bij AMSpell.

Een PERL script geschreven door Gerard van Nes (vannes@ecn.nl) kon het
deels verouderde bestand op een slimme manier ontdoen van `oude'
woorden en voorzien van `nieuwe' woorden. Enig handwerk blijft nodig:
`uiering' wordt `uienring' terwijl `sluiering' weer wel goed is...

Resultaat: een SPELL-NL.TXT met 220.000 woorden.

Vanaf dit punt nam Piet Tutelaers (P.T.H.Tutelaers@urc.tue.nl) het
heft in handen. Aanvankelijk om de nodige afbreekpatronen te
genereren, maar ook om de kwaliteit van de verkregen woordenlijst te
verbeteren. Ook was het zijn idee om te werken aan een universeel
masterbestand in het ISO LATIN1 formaat. Van daaruit kan voor elke
denkbare karakterset een vertaling worden gemaakt, dus ook naar
ASCII. Voor deze vertaalslag leverde Piet een lat2ansi.pl PERL script.

Piet schreef tijdens het werk aan de lijst het volgende:

``Het bestand NL963.TXT heb ik omgezet naar ISO LATIN1 en vervolgens
geverifieerd met mijn benadering van het Electronische Boekje voor
MSDOS (EGB96). In mijn EGB96 benadering (laten we dit gemakshalve maar
even E-G-B96 dopen omdat hierin ook de afbreekplaatsen staan)
ontbreken werkwoordsvormen als werkt en werk-ten, echter niet werk-te
(verleden tijd) en ge-werkt (voltooid verleden tijd). Ook
meervoudsvormen als kaart-jes (wel kaart-je) en de overtreffende
trappen kaler, kaalst (wel kaal). Ik heb geprobeerd op basis van
eenvoudige heuristieken de woordenlijst spell-nl.txt te screenen met
mijn PERL script `verifieer'. Het resultaat is
spell-nl-iso.txt. Hierin worden de woorden voorafgegaan door codes die
aangeven wat er nog met een bepaald woord moet gebeuren:

   =<woord>
      <woord> identiek aan E-G-B96 (zonder afbreekstreepjes)
   -<woord>:<woord1>
      <woord> moet vervangen worden door <woord1>.
   -<woord>:<woord1>|<woord2>
      <woord> moet vervangen worden door <woord1> en/of <woord2>
   ?<woord>
     <woord> met twijfelachtige spelling. Bijvoorbeeld `kapotmaakt' omdat
     dit los wordt geschreven `kapot maakt'.
   #<woord>
     <woord> ontbreekt in E-G-B96 terwijl verwante woordvormen wel
     voorkomen (werkten, kaalst, etc.)
   +<woord>
     <woord> ontbreekt in E-G-B96. Het lijkt mij verstandig deze woorden
     na te lopen in de Dikke van Dale.

Mijn ideaal zou zijn een groot ISO-Latin1 woordenbestand met correcte
woorden, dus inclusief hoofdletters, koppeltekens (streepje),
apostroph en *met* afbreekplaatsen (klein streepje). Dit bestand zou
diverse behoeften kunnen dekken, zoals het genereren van
afbreekpatronen voor TeX en spellingscontrole. Onze eerste taak is
echter te zorgen voor een nauwkeurige woordenlijst. Hoe pakken we dat
aan? Van de Dikke van Dale bestaat een CD-ROM versie. Kunnen we een
programma maken dat onze woorden uit de categorie + hiermee
vergelijkt? Of moeten we dit zelf gaan doen?  De categorie woorden met
# en ? wil ik wel voor mijn rekening nemen evenals het toevoegen van
de afbreekstreepjes.

Ook moeten we ons afvragen of `werkten' naast `werkte' wel nodig is.

De huidige versie van het ISO-Latin1 bestand heet spell-nl-iso.v1 en
is op te halen vanuit ftp.tue.nl (pub/tex/GB95/spell-nl-iso1.zip).
Met lat2ansi.pl kan Frans het omzetten naar zijn favoriete ANSI
formaat.''

Dat heb ik gedaan en hoewel het project op het moment dat ik deze
kopij inlever nog niet af is, hopen we bij het verschijnen van dit
artikel wel klaar te zijn. Veel van de genoemde bestanden zijn te
vinden op FGBBS (026-3217041) en op adressen die staan aangegeven op
http://www.pi.net/~fg

Helemaal `af' zal de woordenlijst niet komen, want de Nederlandse taal
wordt gemaakt door de Nederlanders. En die raken nooit uitgepraat.

 Frans Goddijn & Peter van Zeeland

 fg@fgbbs.iaf.nl

 foobar@pi.net

 http://www.pi.net/~fg

 http://ourworld.compuserve.com/homepages/foobar


****************
