CAPÍTULO 1 - O QUE É MINERAÇÃO DE DADOS
A cada dia, em todos os lugares do mundo, centenas de milhares de registros são gravados em bancos de dados dos mais variados sistemas computadorizados. Seja no cadastro de um atendimento em um hospital australiano ou no check-in de um passageiro em um aeroporto libanês, os bancos de dados não param de crescer.
Os valores neles gravados - nomes, datas, números - são apenas dados quando não estão associados a um rótulo qualquer. E dados, por si só, não dizem nada. O número 5000 pode ser o número de uma casa, a colocação de um atleta em uma competição ou a quantidade de itens em estoque de um determinado produto. É preciso que haja uma indicação do que o valor representa para que ele tenha significado para quem o guardou.
E é quando o dado é associado a um determinado rótulo que ele passa a receber o nome de informação. Quando a pessoa sabe que 5000 é, na verdade, o número da conta de um determinado cliente, é neste momento que o dado passa a informar algo.
Estas informações passam a ter, então, alguma utilidade. Seja para manter o registro de algum fato ou de algum objeto, seja para que totalizações sejam feitas. As possibilidades de uso estão restritas apenas à imaginação e à necessidade de seu detentor.
Mas aos valores dos bancos de dados está reservado um papel que vai além da mera informação: a capacidade de, quando observados da maneira certa, mostrarem uma informação que está implícita, muitas vezes difícil de ser descoberta a olho nu. Esta informação implícita se revela na forma de padrões de dados, que, por sua vez, tornam claros métodos de previsão de ocorrências futuras e regras de comportamento. Neste momento obtém-se conhecimento, ferramenta de incomensurável valor para o planejamento estratégico de qualquer organização.
Torna-se claro que nos enormes bancos de dados já citados são grandes as chances de se encontrar conhecimento valioso. Como, então, realizar a análise destas massas de dados em busca deste conhecimento?
Neste ponto entra em cena a mineração de dados.
1.1 - DEFINIÇÃO
Como já foi dito, o tamanho dos bancos de dados existentes atualmente não para de crescer, e torna-se cada vez mais urgente a necessidade de descobrir e compreender o conhecimento que se esconde nestas massas de dados.
Para realizar este trabalho foram criadas técnicas que empregam o uso de força computacional que receberam o nome de mineração de dados. De acordo com Witten e Frank, mineração de dados pode ser definida da seguinte forma:
Mineração de dados é definida como o processo de descobrir padrões em dados. O processo deve ser automático ou (mais comumente) semi-automático. Os padrões descobertos devem ter algum significado, de forma a prover alguma vantagem, normalmente financeira. Os dados devem estar disponíveis, invariavelmente, em grande quantidade. (Witten, Frank, p. 5, tradução do autor )
Os resultados de um processo de mineração de dados podem ser usados para duas finalidades. Primeiro, como auxílio na previsão de eventos futuros, inferindo as "consequências de novos acontecimentos com base em dados que descrevem o que aconteceu no passado, normalmente através da tentativa de adivinhar a classificação de novos exemplos". (Witten, Frank, p. XXIV)
Outro fim ao qual os resultados de um processo de mineração de dados podem servir é a obtenção de um maior entendimento sobre a estrutura e relacionamento dos dados. Este costuma ser, inclusive, o objetivo principal das organizações que realizam mineração em seus dados.
Uma das possíveis formas de apresentação dos resultados da mineração de dados são as listas de decisão, que se apresentam na forma de uma lista de regras que devem ser interpretadas em ordem. Quando seguidas, estas regras são capazes de classificar corretamente todos os dados nos quais a mineração foi feita.
Outra possibilidade são as listas de regras de associação, que são conjuntos de regras que listam associações entre os dados de uma determinada base. Algumas dessas regras podem não ter valia alguma, por já serem de conhecimento dos interessados na mineração, mas podem trazer à luz relacionamentos até então desconhecidos.
Foi dito que "cínicos, observando ironicamente a explosão de interesse comercial na área, equiparam mineração de dados com estatística associada a marketing" (Witten, Frank, p. 29). A verdade é que não há uma linha divisória entre estas duas áreas, mas podemos afirmar que a mineração de dados está interessada, também, na melhoria do próprio processo de mineração, através da capacidade de fazer com que sistemas computacionais sejam capazes de aprender e melhorar sua performance, a chamada aprendizagem de máquina. Para isso, a mineração de dados utiliza ferramentas estatísticas "tanto para aperfeiçoar a qualidade das classificações quanto para tornar o procedimento de mineração mais computacionalmente eficiente". (Witten, Frank, p. 29).
1.2 - FUNCIONAMENTO
Em todos os sistemas computacionais, sua utilização pode ser dividida em três etapas básicas: a introdução dos dados no sistema, o processamento destes dados pelo sistema, e, finalmente, o fornecimento dos resultados obtidos pelo processamento dos dados introduzidos. O mesmo, naturalmente, ocorre nos processos de mineração de dados.
No caso da mineração de dados, as informações a serem mineradas, estejam elas em um banco de dados ou em um arquivo de texto puro, são introduzidas na forma de exemplos com atributos; o processamento é realizado por diversos algoritmos de aprendizado de máquina e de mineração de dados; e os resultados do processamento podem assumir formas variadas, de acordo com o algoritmo de mineração utilizado.
As próximas seções detalham cada uma destas etapas.
Nenhum comentário:
Postar um comentário