SOA, IoT e Big Data: Apache Hive: otimização com base em custo e transações ACID

O Apache Hive, software direcionado para data warehouses que permite a consulta e o gerenciamento de gigantescos conjuntos de dados, implementou na última versão (0.14.0) melhorias como a otimização de consultas baseadas em custo.

Com o crescimento exponencial de informações geradas a cada minuto, as ferramentas pertencentes ao ecossistema Hadoop necessitam a cada versão, implementar melhorias que sejam capaz de em tempo hábil processar este gigantesco volume de dados.

Na nova versão do Apache Hive (0.14.0) a comunidade responsável pelo desenvolvimento implementou correções e novas funcionalidades, conseguindo fechar um total de 1.015 solicitações de melhorias e correções.

Dentre as principais melhorias que foram implementadas nesta nova versão, destacam-se:

Transações ACID (HIVE-5317);
Consultas com base em otimização por custo (HIVE-5775);
Uso de tabelas temporárias (HIVE-7090);
Suporte aos filtros HBase (HIVE-6132);
Possibilidade da utilização de múltiplas sessões concorrentes no Apache Tez (HIVE-6325);
Suporte para a replicação de tabelas através de instâncias HCatalog (HIVE-7341).
Habilidade da leitura de scripts de qualquer sistema de arquivo pertencente ao ecossistema Hadoop (HIVE-7136);
Execução síncrona/assíncrona através de clientes JDBC (HIVE-6899).

A comunidade está trabalhando para que na próxima versão do Apache Hive sejam incluídas as funcionalidades de sub-queries, análise SQL:2011 e a integração entre o Hive e o Spark para operações envolvendo aprendizado de máquina.

A nova versão e informações sobre as melhorias podem ser encontradas na página do projeto.

segunda-feira, 2 de fevereiro de 2015

Apache Hive: otimização com base em custo e transações ACID

Nenhum comentário:

Postar um comentário

Quem sou eu

Arquivo do blog