Apertium WDM

Uma alternativa colaborativa para ampliação de dicionários em ferramentas de tradução automática baseada em regras. Ambiente web que permite usuários sem conhecimentos específicos de computação contribuírem com a expansão das bases de conhecimento do Apertium.

Software Livre
Tradução Automática
Processamento de Linguagem Natural
GSOC
Published

Thursday, the 1st of January, 2009

Apertium WDM

Apertium WDM

1 Sobre o Projeto

O Apertium WDM (Web Dictionary Maintenance) foi um projeto desenvolvido para criar uma alternativa colaborativa para ampliação de dicionários em ferramentas de tradução automática baseada em regras.

O projeto visava superar os principais obstáculos para o crescimento do Apertium, especialmente a ausência de uma interface homem-máquina específica para manutenção de suas bases de conhecimento. A arquitetura proposta integrava-se à atual forma de desenvolvimento dessas bases de conhecimento e permitia que usuários leigos em computação contribuíssem com a expansão do vocabulário dos dicionários morfológicos do Apertium.

2 Contexto

A tradução automática é uma subárea do processamento de linguagens naturais que tem como objetivo a tradução automática de textos de uma língua natural de origem para outra língua natural de destino. Dentre os diferentes paradigmas para se realizar a tradução automática, a tradução automática baseada em regras apresenta-se como forte candidata para realizar tradução entre línguas com baixa quantidade de corpus disponível.

O Apertium foi apontado como uma solução de software livre e colaborativa para desenvolvimento de sistemas de tradução automática baseada em regras. É uma plataforma licenciada sob a GNU General Public License para desenvolvimento de máquinas de tradução automática baseadas em regras (Rule-Based Machine Translation ou RBMT).

3 Problema

As RBMT dependem de dados linguísticos explícitos, como dicionários morfológicos, dicionários bilíngues, gramáticas e regras de transferência estrutural. Um dos principais obstáculos para o crescimento do Apertium era a ausência de uma interface homem-máquina específica para manutenção de seus dicionários morfológicos, de pares e regras de tradução.

O Apertium contava com poucos contribuidores especialistas, sendo que o número de usuários (que são colaboradores em potencial) era da ordem de milhares. A necessidade de conhecimentos específicos em computação, tais como linguagens de marcação (XML), sistemas de controle de versões (Git) e das estruturas internas do Apertium, acabavam limitando o número de colaboradores aptos a contribuir e afastando colaboradores em potencial.

4 Objetivos

O objetivo principal era propor um ambiente web colaborativo - o Apertium Web Dictionary Maintenance ou Apertium WDM - para o aumento do vocabulário dos dicionários morfológicos do Apertium, a fim de reduzir a quantidade de conhecimento necessário como pré-requisito para uma pessoa se tornar apta a contribuir.

Com isso, esperava-se aumentar o número de contribuidores e, por conseguinte, a capacidade de tradução do Apertium.

4.1 Objetivos Específicos

  • Especificar uma API RESTful que fornecesse um conjunto de funcionalidades para adição, de forma colaborativa, de novas palavras aos dicionários morfológicos de línguas de origem latina e germânica do Apertium, que são armazenados em um repositório Git
  • Especificar uma GUI (Graphical User Interface) que permitisse ao usuário utilizar de forma prática os recursos fornecidos pela API
  • Propor um fluxo de trabalho colaborativo entre os contribuidores e os mantenedores das bases de dados
  • Ferramenta para receber sugestões de usuários
  • Workflow de contribuição simplificado

5 Histórico do Projeto

5.1 2009: Dissertação de Mestrado

O projeto teve início com a Dissertação de Mestrado de Aléssio Miranda Júnior na UFPR, que estabeleceu as bases teóricas e práticas para o desenvolvimento do Apertium WDM.

5.2 2010: Google Summer of Code

Em 2010, o projeto foi submetido e aceito no Google Summer of Code (GSOC), resultando no desenvolvimento de um protótipo funcional.

5.3 2019: Protótipo e TCC

Em 2019, foi desenvolvido um protótipo funcional e um TCC com os primeiros resultados do projeto.

5.4 2020: Últimas Atividades

Em 2020, o projeto foi documentado na Wiki do Apertium e incluído nas ideias para GSOC 2020.

6 Status: Encerrado

Este projeto foi encerrado após vários anos de desenvolvimento e contribuições. O trabalho realizado serviu como base para futuras iniciativas na área de tradução automática e interfaces colaborativas para manutenção de dicionários.

7 Impacto e Legado

O projeto Apertium WDM contribuiu significativamente para:

  • Pesquisa acadêmica: Dissertação de mestrado e trabalhos de conclusão de curso
  • Comunidade de software livre: Contribuições para o projeto Apertium
  • Google Summer of Code: Participação e desenvolvimento de protótipos
  • Conhecimento: Avanços na área de interfaces colaborativas para tradução automática

8 Referências


Projeto encerrado. Última atualização: 2020

Back to top