1. 程式人生 > >Forum Aux Questions Amazon Athena 

Forum Aux Questions Amazon Athena 

Q : Quelle est la différence entre Amazon Athena, Amazon EMR et Amazon Redshift ? Les services de requête tels qu'Amazon Athena, les entrepôts de données tels qu'Amazon Redshift et les infrastructures de traitement de données sophistiquées telles qu'Amazon EMR répondent tous à des besoins et des cas d'utilisation différents. Vous devez donc sélectionner l'outil le plus approprié pour vos tâches. Amazon Redshift offre les performances de requête les plus rapides pour la création de rapports et les charges de travail d'aide à la décision des entreprises, particulièrement lors de l'utilisation de SQL complexe avec de nombreuses jointures et sous-requêtes. Amazon EMR permet d'exécuter de manière simple et économique des infrastructures de traitement hautement distribuées telles que Hadoop, Spark et Presto, lorsque comparé à des déploiements sur site. Amazon EMR offre une grande flexibilité : vous pouvez ainsi exécuter des applications et du code personnalisés et définir des paramètres spécifiques pour le calcul, la mémoire, le stockage et l'application afin d'optimiser vos exigences d'analyse. Amazon Athena représente la solution la plus conviviale pour exécuter des requêtes ponctuelles sur des données stockées dans S3, sans avoir à configurer ou gérer de serveurs. Q : Quand dois-je utiliser un entrepôt de données d'entreprise complet comme Amazon Redshift plutôt qu'un service de requête comme Amazon Athena ?
Un entrepôt de données tel qu'Amazon Redshift représente la meilleure solution si vous devez rassembler des données provenant de nombreuses sources différentes (par exemple, systèmes d'inventaire, systèmes financiers et systèmes de ventes au détail) dans un même format et les stocker, pendant de longues périodes, afin de créer des rapports d'activité sophistiqués. Les entrepôts de données collectent les données dans l'ensemble de l'entreprise et constituent la « seule source fiable » pour la création et l'analyse de rapports. Les entrepôts de données extraient les données de nombreuses sources, puis les formatent et les organisent afin de les stocker. Ils prennent en charge des requêtes rapides complexes qui génèrent des rapports d'activité. Le moteur de requête d'Amazon Redshift a été optimisé afin de fonctionner de manière performante dans ce cas d'utilisation, dans lequel vous devez exécuter des requêtes complexes qui joignent un nombre élevé de tables de données extrêmement volumineuses. TPC-DS est une référence standard conçue pour répliquer ce cas d'utilisation et Redshift exécute ces requêtes jusqu'à 20 fois plus rapidement que des services de requête optimisés pour des données non structurées. Il convient de choisir Amazon Redshift lorsque vous devez exécuter des requêtes sur les données hautement structurées de très grandes tables. En comparaison, des services de requête tels qu'Amazon Athena facilitent l'exécution de requêtes directement dans les tables d'Amazon S3, sans qu'il soit nécessaire de formater les données ni gérer l'infrastructure. Par exemple, Athena convient parfaitement si vous voulez exécuter une requête rapide sur quelques journaux web pour résoudre un problème affectant votre site. Les services de requête vous permettent de commencer rapidement. Vous définissez simplement une table pour vos données, puis commencez la requête à l'aide de la syntaxe SQL standard. Vous pouvez utiliser les deux services simultanément. Si vous préparez vos données dans Amazon S3 avant de les charger dans Amazon Redshift, ces données peuvent également être enregistrées et interrogées à l'aide d'Amazon Athena. Q : Dans quels cas dois-je privilégier Amazon ECS à Amazon Athena ?
Amazon EMR fait bien plus qu'exécuter des requêtes SQL. Avec EMR, vous pouvez exécuter un grand nombre de tâches de traitement de données avec montée en charge pour des applications telles que l'apprentissage machine, l'analyse graphique, la transformation de données, la diffusion de données et quasiment toutes les opérations que vous pouvez coder. Choisissez Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des ensembles de données extrêmement volumineux avec les infrastructures de traitement de Big Data les plus récentes telles que Spark, Hadoop, Presto ou Hbase. Amazon EMR vous permet de contrôler entièrement la configuration de vos clusters et les logiciels installés sur ceux-ci. Utilisez Amazon Athena si vous voulez exécuter des requêtes SQL Spot interactives sur Amazon S3, sans avoir à gérer l'infrastructure ni les clusters. Q : Est-il possible d'utiliser Amazon Athena pour interroger des données traitées à l'aide d'Amazon EMR ?
Oui, Amazon Athena prend en charge un grand nombre des formats de données pris en charge par Amazon EMR. Le catalogue de données Athena est compatible avec le metastore de Hive. Si vous utilisez EMR et que vous disposez déjà d'un metastore Hive, il vous suffit d'exécuter vos instructions DDL sur Amazon Athena, puis vous pouvez commencer l'interrogation des données immédiatement, sans affecter vos travaux Amazon EMR.

相關推薦

Forum Aux Questions Amazon Athena 

Q : Quelle est la différence entre Amazon Athena, Amazon EMR et Amazon Redshift ? Les services de requêt

Forum Aux Questions (FAQ) sur Amazon CloudWatch

Q : Pourquoi ma facture mensuelle AWS pour CloudWatch est-elle différente pour le mois de juillet 2017 par rapport aux mois précédents ?

Analyze and visualize your VPC network traffic using Amazon Kinesis and Amazon Athena

Network log analysis is a common practice in many organizations.  By capturing and analyzing network logs, you can learn how devices on your netwo

Connect to Amazon Athena with federated identities using temporary credentials

Many organizations have standardized on centralized user management, most commonly Microsoft Active Directory or LDAP.  Access to AWS resources is

How SimilarWeb analyze hundreds of terabytes of data every month with Amazon Athena and Upsolver

This is a guest post by Yossi Wasserman, a data collection & innovation team leader at Similar Web. SimilarWeb, in their own words: Si

Access and Download the Results from an Amazon Athena Query

When you run a query using Athena, you can access the results of your query using one of the following ways: To download the results

Resolve Errors Reading JSON Data in Amazon Athena

To remedy NULL or incorrect data errors, check the following common issues: Use the correct JSON SerDe with Amazon Athena to read yo

Use the Results of an Amazon Athena Query in Another Query

Amazon Web Services is Hiring. Amazon Web Services (AWS) is a dynamic, growing business unit within Amazon.com. We are currently hiring So

Resolve RegexSerDe Error "Number of matching groups doesn't match the number of columns" in Amazon Athena

CREATE external table logs(col1 string, col2 string, col3 string, col4 string, col5 string, col6 string, col7 string ) ROW FORMAT SERDE 'org.apa

Interactive Analysis of Genomic Datasets Using Amazon Athena

Aaron Friedman is a Healthcare and Life Sciences Solutions Architect with Amazon Web Services The genomics industry is in the midst of a d

Resolve "Access Denied" Errors When Running Amazon Athena Queries

Athena reads data from Amazon Simple Storage Service (Amazon S3) buckets using the AWS Identity and Access Management (IAM) credentials of the

Querying OpenStreetMap with Amazon Athena

This is a guest post by Seth Fitzsimmons, member of the 2017 OpenStreetMap US board of directors. Seth works with clients including the Humanitari

Movable Ink Gets Insights 50% Faster Using Amazon Athena

Movable Ink uses AWS to query seven years’ worth of historical data and get results in moments, with the flexibility to explore data for de

Amazon Athena — Serverless Interactive Query Service

Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there

Troubleshoot SELECT COUNT Query in Amazon Athena Returning Only One Record

Amazon Web Services is Hiring. Amazon Web Services (AWS) is a dynamic, growing business unit within Amazon.com. We are currently hiring So

Running R on Amazon Athena

Data scientists are often concerned about managing the infrastructure behind big data platforms while running SQL on R. Amazon Athena is

Amazon Athena – Interactive SQL Queries for Data in Amazon S3

The amount of data that we all have to deal with grows every day (I still keep a floppy disk or two around in order to remind myself that 1.44 MB

Amazon Athena Features

Amazon Athena is an interactive query service that makes it easy to analyze data directly in Amazon S3 using standard SQL. With a few clicks in th

R で Amazon Athena を活用する

データサイエンティストはしばしば、R から SQL クエリを投げるときに、その裡側のビッグデータ基盤のインフラ管理を気に掛けなければなりません。Amazon Athena はインフラ管理の必要がなく、標準 SQL で簡単に S3 上のデータを直接分析できる、インタラクティブクエリサービスです

Analyzing Data in S3 using Amazon Athena

Neil Mukerje is a Solution Architect for Amazon Web Services Abhishek Sinha is a Senior Product Manager on Amazon Athena Amazon Athena is