hunpars – szintaktikai elemző magyar nyelvre

A Hunpars szintaktikai elemző magyar nyelvre. Bemenetként egy szövegfile-t kap mondatokkal, kimenetként pedig megadja a mondatok szintaktikai fáját egy egyszerű zárójelezéses jelölésben és GrahpViz dot nyelvű file-okban.

Szoftver követelmények

  • Python 2.4 vagy újabb
  • Hunmorph morfológiai elemző
  • Graphviz (http://www.graphviz.org)

Használat hunmorph morfológiai elemzővel (ajánlott)

Ebben az esetben a mondatok szavait a hunmorph segítségével morfológiai elemzésre kerülnek, és az eredményekből egy szótárfile készül. A Hunpars ezt a szótárt használja a mondatok szintakikai elemzéséhez. A programok használatának egyszerűsítésére egy shell script (UNIX rendszerekhez) és batch file-ok készültek (Windows rendszerekhez)

UNIX:

./szhparser_morph.sh OCAMORPH_BIN_FILE SENTENCE_FILE OUTPUT_NAME DEBUG_LEVEL

Windows:

szhparser_morph.bat OCAMORPH_BIN_FILE SENTENCE_FILE OUTPUT_NAME DEBUG_LEVEL

Az szh_parser_morph_det.bat file minden paraméterhez tartalmaz egy alapértelmezett értéket, ezért ezzel egy klikkeléssel is használható a program (a file szerkesztésével ezek a paraméterek természetesen testreszabhatóak).

Parancssori paraméterek leírása:

A program csak utf-8 karakterkódolású file-okkal működik!

  • OCAMORPH_BIN_FILE A hunmorph (ocamorph) erőforrásfile-jának neve (lásd ocamorph dokumentáció). Kompatibilitási okoból ajánlott a hunmorph_resources.zip file-ban mellékelt erőforrások használata.
  • SENTENCE_FILE Bemeneti file, minden sorában egy mondattal.
  • OUTPUT_NAME A kimeneti file-ok egy OUTPUT_NAME_output nevű könyvtárba kerülnek.

Használat saját szótárfile-al

Ha számítógépén nem elérhető a Hunmorph morfológiai elemző, akkor egy szótárfile-t kell készítenie a Hunpars futtatásához. A szótárfile-nak tartalmaznia kell a mondatok összes szóalakjának elemzését.
UNIX:

./szhparser_dict.sh SENTENCE_FILE DICT_FILE OUTPUT_NAME DEBUG_LEVEL

Windows:

szhparser_dict.bat SENTENCE_FILE DICT_FILE OUTPUT_NAME DEBUG_LEVEL

Az szh_parser_morph_det.bat file minden paraméterhez tartalmaz egy alapértelmezett értéket, ezért ezzel egy klikkeléssel is használható a program (a file szerkesztésével ezek a paraméterek természetesen testreszabhatóak).

Parancssori paraméterek leírása:

A paraméterek megegyeznek a fentiekkel, továbbá:

  • DICT_FILE The dictionary file containing a word and its morphological analysis in every line.

Tipp: ha egy másik gépen hozzá tud férni a hunmorph programhoz, akkor a createKRDic.py script segítségével elkészítheti a szükséges szótárfile-t.

Download

Comments are closed.