sábado, 27 de abril de 2013

Palavras como vetores no espaço

Uma técnica relacionada ao Processamento de Língua Natural que tem me interessado bastante nos últimos tempos são os chamados modelos vetoriais. Sua ideia é considerar cada palavra como um vetor num espaço multi-dimensional. Na prática, significa que cada palavra pode ser entendida como uma sequência de números.

Isso pode gerar várias perguntas: Para que serve um vetor multi-dimensional? Por que usar números? De onde eles saem? 

As respostas são simples, apesar do conceito poder parecer estranho. Primeiro, explico a motivação. Esse tipo de técnica começou a ser usado já há algumas décadas, com o objetivo de facilitar técnicas de recuperação de informação, como a busca do Google ou de qualquer site da Internet. A ideia é a seguinte: para ter uma busca mais inteligente, quando se procura por uma determinada palavra, o sistema não deve buscar somente por ela, escrita exatamente da mesma forma. Em vez disso, é interessante buscar palavras relacionadas.