Uma técnica relacionada ao Processamento de Língua Natural que tem me interessado bastante nos últimos tempos são os chamados modelos vetoriais. Sua ideia é considerar cada palavra como um vetor num espaço multi-dimensional. Na prática, significa que cada palavra pode ser entendida como uma sequência de números.
Isso pode gerar várias perguntas: Para que serve um vetor multi-dimensional? Por que usar números? De onde eles saem?
As respostas são simples, apesar do conceito poder parecer estranho. Primeiro, explico a motivação. Esse tipo de técnica começou a ser usado já há algumas décadas, com o objetivo de facilitar técnicas de recuperação de informação, como a busca do Google ou de qualquer site da Internet. A ideia é a seguinte: para ter uma busca mais inteligente, quando se procura por uma determinada palavra, o sistema não deve buscar somente por ela, escrita exatamente da mesma forma. Em vez disso, é interessante buscar palavras relacionadas.