EELO [N+Sig:ms] SMELL
Português
label@label.ist.utl.pt LabEL® - Laboratório de Engenharia da Linguagem
 

Formação -- Teses de Mestrado -- Paulo Moura

Paulo Moura
Dicionário electrónico de siglas e acrónimos
Mestrado em Linguística (Novas Tecnologias. Aplicações ao Estudo e Ensino do Português), FLUL.

O propósito deste estudo é a recolha, análise e formalização de SIGLAS e ACRÓNIMOS com a finalidade de os integrar nos módulos de dicionários electrónicos dos sistemas INTEX e DIGRAMA.

O INTEX é um sistema desenvolvido, no LADL, por Max Silberztein, especialmente vocacionado para o processamento automático de textos escritos de grandes dimensões (várias dezenas de milhões de palavras); o DIGRAMA é um sistema de processamento de linguagem natural, concebido no LABEL (CAUTL-IST).

A decisão de recolher e estudar o comportamento morfológico e sintáctico de siglas e acrónimos, para os integrar num dicionário, assenta no princípio de que, tanto siglas como acrónimos, são unidades lexicais. De facto, do ponto de vista formal, podem ser definidas como sequências de caracteres delimitadas por espaços; do ponto de vista linguístico, têm um comportamento caracteristicamente nominal.

Tanto o DIGRAMA como o INTEX, os sistemas onde se integrarão as siglas e acrónimos, assentam em bases lexicais. O léxico assume, assim, uma importância capital nestes sistemas. As unidades lexicais da língua devem, por isso, ser recolhidas com exaustividade e descritas de uma forma completa, explícita e sistemática. Estando os dicionários electrónicos intimamente ligados a programas de análise automática, todas as informações neles contidas devem ser formalizadas para que possam ser utilizadas adequadamente.

Neste estudo discutiremos, pois, numa primeira fase, a noção de sigla e acrónimo, os variados processos que entram na sua formação, a classe gramatical a que pertencem, a forma como flexionam e a(s) grafia(s) com que são registados. Numa segunda fase, procederemos à formalização e codificação das entradas lexicais, condição indispensável para a sua integração em sistemas de tratamento automático das línguas naturais.