Ramón Flores
Con unha certa frecuéncia perguntan-me porque non fago un dicionário de galego para os correctores libres Ispell/Myspell/Aspell seguindo a normativa ILG-RAG. Existen várias razóns, mais neste documento só vou esclarecer unha de índole técnica, mais bastante importante. Que eu coñeza houbo 3 tentativas de facé-lo dito dicionário, non sei porque non foron adiante duas delas (na terceira estaba eu polo meio), mais suspeito que o que se conta neste documento tivo bastante a ver.
Os dicionários para os correctores Ispell, Myspell e Aspell non son exactamente iguais, mais son moi semellantes, e todos derivados do primeiro, o Ispell. Por iso cando neste documento poña exemplos, farei-no do ispell, se ben que para os outros dous correctores poderian-se pór exemplos semellantes. Os correctores Ispell e Aspell son utilizados por numerosos programas no sistema operativo GNU/Linux. O corrector MySpell é utilizado por uns poucos programas, mais bastante estendidos, como OpenOffice e Mozilla (e derivados).
Os correctores ispell/aspell/myspell armacenan nunha lista, chamada dicionário, todas as palabras que consideran correctas. A hora de corrixir un texto o programa compara cada palabra a verificar coa lista, e se coincide con algunha das palabras da lista considera-a correcta. Portanto un bon dicionário será aquel:
É difícil dicer cal é o vocabulário óptimo, pois se ben incluir unha palabra permite recoñecé-la, cantos máis termos inclua menor é a capacidade de detectar erros. Un exemplo: a forma verbal "potencia" mascara a falta de acento no substantivo "poténcia". (En mínimos)
O dicionário para o ispell basea-se en dous ficheiros:
flag *p: #plurais
[^LSMRZ] > S # "N=p" # pato -> patos
[AU] L > -L,IS # "N=p" # animal -> animais
[B] E L > -EL,ÉIS # "N=p" # papel -> papéis
O L > -OL,ÓIS # "N=p" # anzol -> anzóis
R > ES # "N=p" # mar -> mares
de maneira que aplicando a regra p a abacate
obtemos: abacates, e aplicando a mesma regra a abacial
obtén-se abaciais.Estas regras poden ser de dous tipos: prefixos ou sufixos. Cada palabra raiz pode verse acompañada de diversas etiquetas, non habendo límite ao seu número. Por outra banda os correctores combinan un prefixo e un sufixo, ex:
De princípio a lista necesária para armacenar todas as palabras da língua galega é enorme:
Se multiplicamos 55 x (12 + 15) obtemos 1485 posíbeis formas para cada verbo. E considerando uns 7000 verbos, obtemos uns 10 millóns de formas verbais. Se ben é certo que non todas esas formas son correctas, este simples cálculo dá unha idea da grandeza do número de formas verbais posíbeis en galego1. (Un ficheiro ASCII con 10 millóns de palabras ocupa uns 110 MBytes sen comprimir, e mesmo comprimido uns 22 MBytes).
Unha das principais diferenzas entre a normativa de mínimos e a normativa ILG-RAG dá-se na unión dos pronomes enclíticos ao verbo.
Na normativa de mínimos é posíbel considerar o hifen como un separador de palabras, co cal o verbo e o pronome son considerados como duas palabras diferentes. De maneira que para cada verbo teremos unicamente 55 formas diferentes. Tendo en conta as distintas conxugacións (4), e os verbos semi-irregulares e irregulares, en total o ficheiro de afixos (galician.aff) do dicionário de mínimos ten 880 normas distintas para a conxugación dos verbos galegos.
Esta solución non é perfeita, tal como se explica na páxina de limitacións, mais permite elaborar un dicionário bastante aceitábel.
Dado que os correctores aos que nos estamos a referir non permiten combinar vários sufixos, e que na normativa ILG-RAG o verbo e o pronome dan lugar a unha nova palabra, para facer un tratamento completo dos verbos cumpriria un ficheiro de afixos con moitas mais regras que no caso anterior.
Asi sen non varia-se a acentuación precisarian-se unhas 880 x 27 = 23760 regras. Mais neste caso ao engadir un ou mais pronomes a acentuación altera-se, polo que para cada verbo cumpriria considerar como mínimo duas raices, de maneira que cada raiz teria asociadas unhas cantas regras. Ex:
En castelán teñen en princípio o mesmo problema, xa que os pronomes enclíticos unen-se directamente ao verbo. Mais neste caso a frecuéncia de uso dos pronomes enclíticos é moito menor que en galego, de maneira que os autores do dicionário de castelán contemplaron só uns poucos casos, sen por iso o seu dicionário deixar de ser útil.
Tendo en conta o anterior ocorren-se-me 4 opcións, por orde de dificuldade: