A HunToken program egy gyors shell szűrő, ami a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja. Lexikon építéshez, információ visszakereséshez, szövegbányászathoz és sok egyéb természetes nyelvfeldolgozó alkalmazáshoz is használható (például ezzel készült a Hunglish Corpus, a Magyar Webkorpusz is). Kimenete a Szeged Korpuszban is használt MSD kódolás. Néhány fontosabb tulajdonsága:
- 98% pontossággal megállapítja a helyes mondat és szóhatárt (Szeged Korpusz 1.0-n mérve)
- Normalizálja a szóközöket, a felismeri a paragrafus határokat.
- Kezeli a leggyakoribb rövidítéseket, a számokat, felsorolásokat.
- Nem vágja el a kötöjellel, per jellel stb. egybe írt többszavas kifejezéseket (kötőjeles toldalékok, mértékegységes számok, 3434/1992. évi elszámolás)
- Több un. nyílt tokenosztályt kezel, úgymint urlek, ISBN számok, dátumok stb.
- Kezeli a mondaton belüli idézést, és dialógusokat (“Jót s jól! Ebben áll a nagy titok” – figyelmezteti Kazinczy költőtársait.)
- Unix, Mac Os X, Windows rendszer alatt használható.
- LGPL licenc alapján szabadon felhasználható.
További jellemzői megtalálja a dokumentációban DEADLINK.
Usage
The program reads the standard input and the annotated (tagged) xml file is written to the standard output. Put simply:
cat yourtext.txt | huntoken > youtokens.xml
Download and install
You can download the source files from out ftp server.
Környezet
A program a GNU Flex lexikai-elemző előállító programot használja a C forráskódú szűrők előállítására, így nagy mértékben hordozható. Unix, Windows, Mac OS X platformokon is lefordítható és futtatható.
Szoftverigény
A program fordítása során Unix-típusú környezetet igényel, ezért Windows alatt a CYGWIN, vagy a MinGW környezet telepítésére van szükség.
A szükséges GNU Make, GNU Flex és a GNU M4 programok részei minden Linux terjesztésnek, míg a CYGWIN csomagon belül a CYGWIN/dev, illetve a CYGWIN/tools csoportban találjuk meg ezeket.
Jelenleg a Huntoken parancs egy Bourne-kompatibilis héjprogram, ami elindítja a tokenizálásért felelős szűrősort. A Unix héjprogram, ha nem akarunk Windows alatt külön héjat futtatni, könnyen kiváltható rendszerspecifikus héjprogrammal is.
A Huntoken program új változata nem igényli a sed segédprogramot a futás során, szerepe így csak a Huntoken csomagban szereplő szűrők indítására szorítkozik.
Telepítés
A következő parancsokkal fordíthatjuk és telepíthetjük a Huntokent:
tar xvzf huntoken-1.6.tgz cd huntoken-1.6 make make install
Lehetőség van a telepített szűrők és a kézikönyv lap törlésére is a
make deinstall
paranccsal.