Projectos -- ENLEX

ENLEX: Desenvolvimento de Léxicos de Ampla Cobertura (Enhancement of Large-scale Lexicons)
Referência:	PLP/34729/99-00
Duração:	3 anos
Instiuição Financiadora:	Fundação para a Ciência e a Tecnologia
Programa:	POSI
Responsável Científico:	Elisabete Ranchhod (FLUL/CAUTL)
Resumo:	Nos últimos anos tornou-se evidente que os recursos linguísticos e, em particular, os recursos lexicais são a pedra de toque de qualquer sistema de processamento de linguagem natural. Na verdade, a crescente necessidade de aplicações da linguística computacional fez ressaltar a carência de dados linguísticos de dimensões reais, e, em particular, de léxicos e gramáticas de grande cobertura. Assim, para responder às actuais solicitações e exigências de qualidade, o tratamento automático das línguas naturais obriga a uma descrição sistemática e completa das línguas a tratar, de modo a evitar ou, pelo menos, reduzir as falhas de processamento devidas à insuficiência dos dados linguísticos. Se, em relação ao tratamento do léxico, os dicionários utilizados pelos sistemas de processamento não forem adequados, quer do ponto de vista da sua cobertura lexical, quer do ponto de vista da formalização e sistematização da informação linguística, isso afectará não só a análise lexical de um determinado texto, mas também todas as fases de processamento subsequentes. Se, por exemplo, uma palavra não for reconhecida ou não for correctamente identificada, a análise sintáctica da frase ou da estrutura em que ela se encontre não poderá ser feita. O léxico surge assim como uma componente de crucial importância em qualquer sistema de processamento automático de texto. Nos trabalhos que a equipa tem vindo a desenvolver, o léxico ocupa um lugar central: foram já elaborados dicionários electrónicos de palavras simples (1.250.000 formas flexionadas) e compostas (25.000), estão a ser construídas gramáticas com forte componente lexical. Estes recursos linguísticos são utilizados em análise automática de texto: - pelo sistema DIGRAMA, desenvolvido pela equipa; - pelo sistema INTEX, desenvolvido por M. Silberztein (LADL/IBM). Os dados linguísticos estão normalizados de acordo com os métodos definidos por M. Gross (LADL, Paris7). Esse formalismo foi adoptado por diversas equipas internacionais na elaboração de dicionários e gramáticas do búlgaro, espanhol, francês, grego, inglês, italiano, polaco e português. Apesar de se tratar de um conjunto importante de recursos linguísticos, eles têm de ser melhorados e aumentados. Alargar e refinar esses recursos de modo a melhorar a exploração automática de corpora é o objectivo deste projecto. O programa de trabalho consiste em: - Aumentar para 50.000 as entradas dos dicionários de palavras compostas (vocabulário comum e técnico); - Melhorar os actuais dicionários, adicionando informações semânticas às respectivas entradas; - Elaborar dicionários de siglas e acrónimos, objectos linguísticos particulares, cuja utilização em textos é cada vez mais frequente (recenseamento e formalização de pelo menos 5.000 siglas); - Conceber e elaborar gramáticas para resolução das ambiguidades provocadas por homografias lexicais; - Alargar a biblioteca de gramáticas locais (expressões temporais, datas, percentagens, expressões numéricas, etc.).