Dicionário galego en normativa ILG-RAG para correctores ortográficos libres

Ramón Flores

Con unha certa frecuéncia perguntan-me porque non fago un dicionário de galego para os correctores libres Ispell/Myspell/Aspell seguindo a normativa ILG-RAG. Existen várias razóns, mais neste documento só vou esclarecer unha de índole técnica, mais bastante importante. Que eu coñeza houbo 3 tentativas de facé-lo dito dicionário, non sei porque non foron adiante duas delas (na terceira estaba eu polo meio), mais suspeito que o que se conta neste documento tivo bastante a ver.

Os dicionários para os correctores Ispell, Myspell e Aspell non son exactamente iguais, mais son moi semellantes, e todos derivados do primeiro, o Ispell. Por iso cando neste documento poña exemplos, farei-no do ispell, se ben que para os outros dous correctores poderian-se pór exemplos semellantes. Os correctores Ispell e Aspell son utilizados por numerosos programas no sistema operativo GNU/Linux. O corrector MySpell é utilizado por uns poucos programas, mais bastante estendidos, como OpenOffice e Mozilla (e derivados).

Como funcionan os correctores

Os correctores ispell/aspell/myspell armacenan nunha lista, chamada dicionário, todas as palabras que consideran correctas. A hora de corrixir un texto o programa compara cada palabra a verificar coa lista, e se coincide con algunha das palabras da lista considera-a correcta. Portanto un bon dicionário será aquel:

  1. no que todas as palabras estexan ben escritas (ortografia correcta),
  2. que conteña os termos mais usuais, e
  3. que conteña boa parte do léxico da língua.

É difícil dicer cal é o vocabulário óptimo, pois se ben incluir unha palabra permite recoñecé-la, cantos máis termos inclua menor é a capacidade de detectar erros. Un exemplo: a forma verbal "potencia" mascara a falta de acento no substantivo "poténcia". (En mínimos)

O dicionário para o ispell basea-se en dous ficheiros:

  1. o galician.words, con unha lista de palabras raices, as que se lles engaden unhas etiquetas, ex:
    abacate/p
    abacateiro/p
    abacelar/MXYp
    abacial/p

  2. o galician.aff, con unha lista de regras coas que se construen palabras derivadas a partir das raices, ex:
        flag *p: #plurais
           [^LSMRZ]  >     S    # "N=p"    # pato -> patos
           [AU] L    >  -L,IS   # "N=p"    # animal -> animais
           [B] E L   > -EL,ÉIS  # "N=p"  # papel -> papéis
           O L       > -OL,ÓIS  # "N=p"  # anzol -> anzóis
           R         >     ES   # "N=p"    # mar -> mares
          
    de maneira que aplicando a regra p a abacate obtemos: abacates, e aplicando a mesma regra a abacial obtén-se abaciais.

Estas regras poden ser de dous tipos: prefixos ou sufixos. Cada palabra raiz pode verse acompañada de diversas etiquetas, non habendo límite ao seu número. Por outra banda os correctores combinan un prefixo e un sufixo, ex:

mais non 2 prefixos ou dous sufixos. Ex:

O dicionário galego

De princípio a lista necesária para armacenar todas as palabras da língua galega é enorme:

  1. Como todas as línguas románicas os verbos galegos conxugan-se, e asi na maioria dos casos a cada raiz corresponden-lle 55 formas distintas e correctas.
  2. Ademais en galego resulta habitual colocar os pronomes persoais detrás do verbo (pronomes enclíticos) e unidos ao mesmo, xerando asi unha grande cantidade de formas diferentes e correctas.
    1. Os pronomes persoais que poden ir enclíticos son 12: me, te, che, se, o, a, os, as, lle, lles, nos e vos. (Ex: "louvas-me", "louvo-te", "louvan-nos", ...)
    2. Aos pronomes individuais anteriores ha que adicionar as combinacións, contractas ou non, dos ditos pronomes:
      • me + o(s)/a(s) -> mo(s)/ma(s) ( Deu-mo )
      • che + o(s)/a(s) -> cho(s)/cha(s) ( Deu-cho )
      • lle + o(s)/a(s) -> llo(s)/lla(s) ( Deu-llo )
      • nos + o(s)/a(s) -> no-lo(s)/no-la(s) ( Deu-no-lo )
      • vos + o(s)/a(s) -> vo-lo(s)/vo-la(s) ( Deu-vo-las )
      • se + me, te, lle, nos, vos -> se-me, se-te, se-lle, se-nos, se-vos (Ex: Casou-se-me, rompeu-se-te, abriu-se-vos, ...)

Se multiplicamos 55 x (12 + 15) obtemos 1485 posíbeis formas para cada verbo. E considerando uns 7000 verbos, obtemos uns 10 millóns de formas verbais. Se ben é certo que non todas esas formas son correctas, este simples cálculo dá unha idea da grandeza do número de formas verbais posíbeis en galego1. (Un ficheiro ASCII con 10 millóns de palabras ocupa uns 110 MBytes sen comprimir, e mesmo comprimido uns 22 MBytes).

ILG-RAG e Mínimos

Unha das principais diferenzas entre a normativa de mínimos e a normativa ILG-RAG dá-se na unión dos pronomes enclíticos ao verbo.

A solución na normativa de mínimos

Na normativa de mínimos é posíbel considerar o hifen como un separador de palabras, co cal o verbo e o pronome son considerados como duas palabras diferentes. De maneira que para cada verbo teremos unicamente 55 formas diferentes. Tendo en conta as distintas conxugacións (4), e os verbos semi-irregulares e irregulares, en total o ficheiro de afixos (galician.aff) do dicionário de mínimos ten 880 normas distintas para a conxugación dos verbos galegos.

Esta solución non é perfeita, tal como se explica na páxina de limitacións, mais permite elaborar un dicionário bastante aceitábel.

O problema da normativa ILG-RAG

Dado que os correctores aos que nos estamos a referir non permiten combinar vários sufixos, e que na normativa ILG-RAG o verbo e o pronome dan lugar a unha nova palabra, para facer un tratamento completo dos verbos cumpriria un ficheiro de afixos con moitas mais regras que no caso anterior.

Asi sen non varia-se a acentuación precisarian-se unhas 880 x 27 = 23760 regras. Mais neste caso ao engadir un ou mais pronomes a acentuación altera-se, polo que para cada verbo cumpriria considerar como mínimo duas raices, de maneira que cada raiz teria asociadas unhas cantas regras. Ex:

En castelán teñen en princípio o mesmo problema, xa que os pronomes enclíticos unen-se directamente ao verbo. Mais neste caso a frecuéncia de uso dos pronomes enclíticos é moito menor que en galego, de maneira que os autores do dicionário de castelán contemplaron só uns poucos casos, sen por iso o seu dicionário deixar de ser útil.

Solucións

Tendo en conta o anterior ocorren-se-me 4 opcións, por orde de dificuldade:

  1. Elaborar un dicionário sen ter en conta os pronomes enclíticos. É unha solución fácil, mais de pouca cualidade.
  2. Elaborar un dicionário con todas as regras necesárias para os verbos. Non é imposíbel, mais é traballoso, tanto de elaborar como de manter. Evidentemente cantas mais regras mais posibilidade ha de cometer erros, e mais difícil detectá-los.
  3. Modificar os programas, os correctores ortográficos, para facilitar a elaboración do dicionário. Por exemplo permitindo a concatenazón de dous sufixos. Esta solución, a parte do traballo en si, a programazón, ten un problema engadido, ou se consegue que os autores dos programas aceiten as modificacións (a mellor opción), ou cumpre ir parcheando cada nova versión que apareza dos correctores.
  4. Modificar as normas ortográficas ILG-RAG para que oferezan solucións acaídas ao galego, e non copien sen mais as do castelán.

Nota de rodapé

...galego1
Os autores do corrector ortográfico Galgo, publicitan orgullosamente que o seu programa recoñece 20 millóns de formas diferentes.

OUTRAS NORMATIVAS