1. 程式人生 > >Amazon Athena 常見問題

Amazon Athena 常見問題

問:Amazon Athena、Amazon EMR 和 Amazon Redshift 之間有何差異? 查詢服務(如 Amazon Athena)、資料倉庫(如 Amazon Redshift)和複雜的資料處理框架(如 Amazon EMR)都可以滿足不同的需求和使用案例。您只需要為作業挑選適當的工具即可。Amazon Redshift 為企業報告和商業智慧工作負載提供最快的查詢效能,這一點在涉及具有多個聯接和子查詢的極為複雜的 SQL 查詢方面尤為明顯。與本地部署相比,Amazon EMR 使執行高度分散式的處理框架(如 Hadoop、Spark 和 Presto)變得簡單且經濟高效。Amazon EMR 非常靈活 - 您可以執行自定義的應用程式和程式碼,定義特定的計算、記憶體、儲存和應用程式引數,以優化您的分析需求。Amazon Athena 為針對 S3 中的資料執行臨時查詢提供了最簡單的方法,您不必設定或管理任何伺服器。 問:什麼時候該使用 Amazon Redshift 這樣功能全面的企業資料倉庫?什麼時候該使用 Amazon Athena 這樣的查詢服務呢?
當您需要將許多不同來源(如庫存系統、財務系統和零售系統)的資料彙總成一種通用格式並長期儲存時,或者需要從歷史資料生成複雜的業務報告時,像 Amazon Redshift 這樣的資料倉庫是您最好的選擇。 資料倉庫從公司的各個位置收集資料,並充當生成和分析報告的“單一資訊源”。資料倉庫從不同來源提取資料、格式化並組織資料、儲存資料,同時支援生成業務報告的複雜、高速查詢。Amazon Redshift 中的查詢引擎經過優化,在需要執行聯接大量非常大的資料庫表的複雜查詢使用案例中執行得非常好。TPC-DS 是旨在複製此使用案例的標準基準,與針對非結構化資料進行優化的查詢服務相比,Redshift 將此類查詢的執行速度提高了高達 20 倍。當需要針對高度結構化的資料執行查詢並需要在許多大型表之間進行大量聯接時,您應選擇 Amazon Redshift。 相比之下,Amazon Athena 這樣的查詢服務可以直接對 Amazon S3 中的資料執行互動式查詢,您不必操心格式化資料或管理基礎設施之類的繁瑣細節。例如,如果只需要對某些網路日誌執行快速查詢以診斷站點上的效能問題,則 Athena 就是一種很好的選擇。通過查詢服務,您可以迅速開始工作。您只需為資料定義一個表,即可使用標準 SQL 開始查詢。 此外,您還可以將兩項服務配合使用。如果您在將資料載入到 Amazon Redshift 之前將其暫存在 Amazon S3 上,則也可以將這些資料註冊到 Amazon Athena 並通過其進行查詢。 問:分別應在何時使用 Amazon EMR 和Amazon Athena?
Amazon EMR 的功能遠不止執行 SQL 查詢。藉助 EMR,您可以為 Machine Learning、圖形分析、資料轉換、流式處理資料以及您可以編寫程式碼的幾乎任何應用執行各種橫向擴充套件的資料處理任務。如果需要使用自定義程式碼通過最新的大資料處理框架(如 Spark、Hadoop、Presto 或 Hbase)來處理和分析超大資料集,則應該使用 Amazon EMR。通過 Amazon EMR,您可以全面掌控叢集及其上安裝的軟體的配置。 如果需要對 Amazon S3 上的資料執行臨時的互動式 SQL 查詢,又不想管理任何基礎設施或叢集,則應該使用 Amazon Athena。 問:可以使用 Amazon Athena 查詢使用 Amazon EMR 處理的資料嗎?
可以。Amazon Athena 支援許多與 Amazon EMR 相同的資料格式。Athena 的資料目錄相容 Hive 元儲存。如果您正在使用 EMR 並且已有 Hive 元儲存,則只需在 Amazon Athena 上執行 DDL 語句,即可開始查詢資料,不會對您的 Amazon EMR 作業產生任何影響。

相關推薦

Amazon Athena 常見問題

問:Amazon Athena、Amazon EMR 和 Amazon Redshift 之間有何差異? 查詢服務(如 Amazon Athena)、資料倉庫(如 Amazon Redshift)和複雜的資料

Analyze and visualize your VPC network traffic using Amazon Kinesis and Amazon Athena

Network log analysis is a common practice in many organizations.  By capturing and analyzing network logs, you can learn how devices on your netwo

Connect to Amazon Athena with federated identities using temporary credentials

Many organizations have standardized on centralized user management, most commonly Microsoft Active Directory or LDAP.  Access to AWS resources is

How SimilarWeb analyze hundreds of terabytes of data every month with Amazon Athena and Upsolver

This is a guest post by Yossi Wasserman, a data collection & innovation team leader at Similar Web. SimilarWeb, in their own words: Si

Access and Download the Results from an Amazon Athena Query

When you run a query using Athena, you can access the results of your query using one of the following ways: To download the results

Resolve Errors Reading JSON Data in Amazon Athena

To remedy NULL or incorrect data errors, check the following common issues: Use the correct JSON SerDe with Amazon Athena to read yo

Use the Results of an Amazon Athena Query in Another Query

Amazon Web Services is Hiring. Amazon Web Services (AWS) is a dynamic, growing business unit within Amazon.com. We are currently hiring So

Resolve RegexSerDe Error "Number of matching groups doesn't match the number of columns" in Amazon Athena

CREATE external table logs(col1 string, col2 string, col3 string, col4 string, col5 string, col6 string, col7 string ) ROW FORMAT SERDE 'org.apa

Interactive Analysis of Genomic Datasets Using Amazon Athena

Aaron Friedman is a Healthcare and Life Sciences Solutions Architect with Amazon Web Services The genomics industry is in the midst of a d

Resolve "Access Denied" Errors When Running Amazon Athena Queries

Athena reads data from Amazon Simple Storage Service (Amazon S3) buckets using the AWS Identity and Access Management (IAM) credentials of the

Querying OpenStreetMap with Amazon Athena

This is a guest post by Seth Fitzsimmons, member of the 2017 OpenStreetMap US board of directors. Seth works with clients including the Humanitari

Movable Ink Gets Insights 50% Faster Using Amazon Athena

Movable Ink uses AWS to query seven years’ worth of historical data and get results in moments, with the flexibility to explore data for de

Amazon Athena — Serverless Interactive Query Service

Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there

Troubleshoot SELECT COUNT Query in Amazon Athena Returning Only One Record

Amazon Web Services is Hiring. Amazon Web Services (AWS) is a dynamic, growing business unit within Amazon.com. We are currently hiring So

Running R on Amazon Athena

Data scientists are often concerned about managing the infrastructure behind big data platforms while running SQL on R. Amazon Athena is

Amazon Athena – Interactive SQL Queries for Data in Amazon S3

The amount of data that we all have to deal with grows every day (I still keep a floppy disk or two around in order to remind myself that 1.44 MB

Amazon Athena Features

Amazon Athena is an interactive query service that makes it easy to analyze data directly in Amazon S3 using standard SQL. With a few clicks in th

R で Amazon Athena を活用する

データサイエンティストはしばしば、R から SQL クエリを投げるときに、その裡側のビッグデータ基盤のインフラ管理を気に掛けなければなりません。Amazon Athena はインフラ管理の必要がなく、標準 SQL で簡単に S3 上のデータを直接分析できる、インタラクティブクエリサービスです

Analyzing Data in S3 using Amazon Athena

Neil Mukerje is a Solution Architect for Amazon Web Services Abhishek Sinha is a Senior Product Manager on Amazon Athena Amazon Athena is

Resolve Issues With Amazon Athena Queries Returning Empty Results

Here are some common reasons why the query might return zero records. File selected in crawler settings If you're using a