terça-feira, 29 de maio de 2012

Explorando a Wikipédia

A Wikipedia é um projeto admirável. Iniciada em 2001, sua versão original em inglês hoje inclui quase 4 milhões de artigos sobre os mais diversos temas. Já me ajudou em diversas ocasiões em que precisava saber alguma coisa sobre algum assunto em particular ou simplesmente matar curiosidades.

Mas além de servir para ser consultada por pessoas, a Wikipedia também tem auxiliado pesquisas em Processamento de Língua Natural. Como? Em primeiro lugar, oferecendo uma quantidade enorme de textos bem escritos (na maioria das vezes). Só isso já é útil para algumas aplicações, como os modelos de língua, que tentam determinar se uma sequência de palavras parece compor um texto real ou não. Para alcançar esse objetivo, um modelo de língua precisa ser treinado com textos. (Se você estiver se perguntando para que serve isso na prática, a resposta mais fácil é tradução automática: sistemas tradutores normalmente geram diversas versões do texto traduzido e exibem a que for melhor avaliada pelo seu modelo de língua. Mas isso já é outro assunto.)