huntoken

HunToken is a rule based tokenizer and sentence boundary detector for Hungarian (and English) texts. It’s input is a plain text file with latin1 or latin2 character encoding and the output is a tokenized XML file.

A HunToken program egy gyors shell szűrő, ami a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja. Lexikon építéshez, információ visszakereséshez, szövegbányászathoz és sok egyéb természetes nyelvfeldolgozó alkalmazáshoz is használható (például ezzel készült a Hunglish Corpus, a Magyar Webkorpusz is). Kimenete a Szeged Korpuszban is használt MSD kódolás. Néhány fontosabb tulajdonsága:

  • 98% pontossággal megállapítja a helyes mondat és szóhatárt (Szeged Korpusz 1.0-n mérve)
  • Normalizálja a szóközöket, a felismeri a paragrafus határokat.
  • Kezeli a leggyakoribb rövidítéseket, a számokat, felsorolásokat.
  • Nem vágja el a kötöjellel, per jellel stb.  egybe írt többszavas kifejezéseket (kötőjeles toldalékok, mértékegységes számok, 3434/1992. évi elszámolás)
  • Több un. nyílt tokenosztályt kezel, úgymint urlek, ISBN számok, dátumok stb.
  • Kezeli a mondaton belüli idézést, és dialógusokat (“Jót s jól! Ebben áll a nagy titok” – figyelmezteti Kazinczy költőtársait.)
  • Unix, Mac Os X, Windows rendszer alatt használható.
  • LGPL licenc alapján szabadon felhasználható.

További jellemzői megtalálja a dokumentációban DEADLINK.

Usage

The program reads the standard input and the annotated (tagged) xml file is written to the standard output. Put simply:

cat yourtext.txt | huntoken > youtokens.xml

Download and install

You can download the source files from out ftp server.

Környezet

A program a GNU Flex lexikai-elemző előállító programot használja a C forráskódú szűrők előállítására, így nagy mértékben hordozható. Unix, Windows, Mac OS X platformokon is lefordítható és futtatható.

Szoftverigény

A program fordítása során Unix-típusú környezetet igényel, ezért Windows alatt a CYGWIN, vagy a MinGW környezet telepítésére van szükség.
A szükséges GNU Make, GNU Flex és a GNU M4 programok részei minden Linux terjesztésnek, míg a CYGWIN csomagon belül a CYGWIN/dev, illetve a CYGWIN/tools csoportban találjuk meg ezeket.
Jelenleg a Huntoken parancs egy Bourne-kompatibilis héjprogram, ami elindítja a tokenizálásért felelős szűrősort. A Unix héjprogram, ha nem akarunk Windows alatt külön héjat futtatni, könnyen kiváltható rendszerspecifikus héjprogrammal is.
A Huntoken program új változata nem igényli a sed segédprogramot a futás során, szerepe így csak a Huntoken csomagban szereplő szűrők indítására szorítkozik.

Telepítés

A következő parancsokkal fordíthatjuk és telepíthetjük a Huntokent:

tar xvzf huntoken-1.6.tgz
cd huntoken-1.6
make
make install

Lehetőség van a telepített szűrők és a kézikönyv lap törlésére is a

make deinstall

paranccsal.

Comments are closed.