基本は以下のドキュメントに従って実行しています。
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-load-from-azure-blob-storage-with-polybase/
なお、今回の手順ではファイル名は「simple_benchmark.csv」、データ形式は「TestId, TextNumber」で、ともに整数データとしています。
また、CSVファイルはストレージアカウント「testdatastorage」、コンテナ「testdata」に格納しています。
1.資格情報を作成
CREATE MASTER KEY; CREATE DATABASE SCOPED CREDENTIAL AzureStorageCredential WITH IDENTITY = 'testdatastorage', SECRET = '<アクセスキー>';
2.外部データソースの作成
CREATE EXTERNAL DATA SOURCE AzureExtStorage WITH ( TYPE = HADOOP, LOCATION = 'wasbs://testdata@testdatastorage.blob.core.windows.net', CREDENTIAL = AzureStorageCredential );
3.データ形式の構成
CREATE EXTERNAL FILE FORMAT CSVFileFormat WITH ( FORMAT_TYPE = DELIMITEDTEXT, FORMAT_OPTIONS ( FIELD_TERMINATOR = ',' ) );
4.データベースのスキーマを作成
CREATE SCHEMA [tst];
5.外部テーブルを作成
CREATE EXTERNAL TABLE [tst].[SimbleExtTab1] ( [TestId] [int] NOT NULL, [TestNumber] [int] NULL ) WITH ( LOCATION = '/simple_benchmark.csv', DATA_SOURCE = AzureExtStorage, FILE_FORMAT = CSVFileFormat );
6.データをSQL DWにロード
CREATE TABLE [tst].[SimpleTab1] WITH ( DISTRIBUTION = HASH([TestId]) ) AS SELECT * FROM [tst].[SimbleExtTab1];
7.列ストア圧縮の最適化
ALTER INDEX ALL ON [tst].[SimpleTab1] REBUILD;
8.統計の最適化
CREATE STATISTICS [stat_tst_SimpleTab1_TestId] ON [tst].[SimpleTab1]([TestId]); CREATE STATISTICS [stat_tst_SimpleTab1_TestNumber] ON [tst].[SimpleTab1]([TestNumber]);
0 件のコメント:
コメントを投稿
注: コメントを投稿できるのは、このブログのメンバーだけです。