AWS Glue - SQLテーブルから行を削除します -- sql-server フィールド と jdbc フィールド と aws-glue フィールド 関連 問題

AWS Glue - Delete rows from SQL Table












1
vote

問題

日本語

JDBCを使用してSQL Serverに接続するAWS Glueジョブを作成しています。このジョブの意図は、ロジック後にデータをSQL Serverに挿入することです。最初にターゲットSQL Serverテーブルから既存の行を削除してから、AWS Glueジョブからそのテーブルにデータを挿入する必要があります。

私は多くの記事をチェックしましたが、SQL Serverの既存の行を削除/切り捨てるという詳細を見つけることができませんでした。

これを行うためのオプションがあるかどうか私に知らせてください。

英語

I am creating an AWS Glue job which uses JDBC to connect to SQL Server. Intention of this job is to insert the data into SQL Server after some logic. I need to first delete the existing rows from the target SQL Server table and then insert the data from AWS Glue job into that table.

I checked many articles but I could not find the details of deleting/truncating the existing rows in SQL Server.

Can you please let me know if there are any options for doing this?

</div
        

回答リスト

0
 
vote

AWS Glueを介してテーブルから特定の行を削除するオプションを見つけることができません。既存のテーブルを切り捨てるオプションが利用可能である次のリンクを見つけてください。

https://commenting.awsblogs.com/embed.html?disqus_shortname=aws-big-data-logand.disqus_identifier=4912 andamp.disqus_title= + AWS + Glue + To + Run + ETL + JOBS +を使用する+非ネイティブ+ JDBC +データ+ソース&AMP + amp; disqus_url = https://aws.amazon.com/blogs/big-data/use-aws-glue- to-run-etl-jobs-ant-native-jdbc-data-sources /#comment-4891498420

 

I am not able to find an option to delete specific rows from the table through AWS Glue. Please find the below link where the option to truncate the existing table is available.

https://commenting.awsblogs.com/embed.html?disqus_shortname=aws-big-data-blog&disqus_identifier=4912&disqus_title=Use+AWS+Glue+to+run+ETL+jobs+against+non-native+JDBC+data+sources&disqus_url=https://aws.amazon.com/blogs/big-data/use-aws-glue-to-run-etl-jobs-against-non-native-jdbc-data-sources/#comment-4891498420

</div
 
 
0
 
vote

探しているものの種類は利用できません。代替手段は、あなたが望む行動を達成するためにPythonモジュールを使うことです。各行に対してこれを実行すると遅くなる可能性があります。あなたはどちらがあなたに最高のパフォーマンスを与えるかを見るためにさまざまなパターンを試してみることができます。例として、ステージングテーブルに削除するレコードをロードし、TEMPステージングテーブルの行を使用してターゲットテーブルで削除を行うためにSQLコマンドを実行します。それは巨大な負荷の場合にはより良いことになるでしょう。 SQLコマンドは、PypyODBCのような純粋なPythonであるPython DBモジュールを介して実行できます。

 

The sort of delete action you are looking for is not available. The alternative would be to use python modules to achieve the actions that you want. Running this for each row might be slow. You can experiment with different patterns to see which one gives you the best performance. An Example would be , loading the records to delete to a staging table and running a sql command to do a delete on the target table using rows in the temp staging table. That would work out to be better in case of huge loads. The sql command can be run via a python dB module that is pure python like pypyodbc.

</div
 
 
0
 
vote

ジョブにブックマークを有効にして、最後の処理されたデータを保持し、ソースに生成された新しいデータを追加します。

 

Please enable bookmark for the job, which holds the last processed data and appends any new data that got generated on source.

</div
 
 

関連する質問

0  AWS EMR Sparkは、Hiveの転移として接着剤を使用しますか?  ( Aws emr spark use glue as hive metastore ) 
こんにちは私はデータカタログとしてAWS Glueを使用するHive外部テーブルを持っています。接待なカタログはEMRにアクセス可能です。 私はハイブコンソールを介してそれをチェックしました。 しかし、.enablehivesupport()を使用してスパーク...

1  弦の長さがGlue(Python、Pyspark)のDDLの長さを超える  ( String length exceeds ddl length in glue python pyspark ) 
サイズ4MBのS3 JSONファイルを持っています。 AWS Glueを使用してデータをクロールし、それに対応するデータカタログテーブルを生成しました。私はジョブを作成しました(Mazon RedshiftでデータをアップロードするためにAWS GlueでET...

0  Pandas_UDF関数はAWS Glueで実行されている機能が印刷機能なしでS3にオブジェクトを置かない  ( Pandas udf function running in aws glue does not put objects to s3 without print ) 
これは私がやろうとしているものです。 SparkdataFrame - &GT。 GroupBy - &GT; BOTO3 を使用してS3にいくつかのファイルを作成するPandas_UDFメソッドを呼び出します。 Pandas_UDF法 <事前> <...

3  DataLakeとしてのAWSでETLパイプラインが増分更新を処理する方法  ( Etl pipeline in aws with s3 as datalake how to handle incremental updates ) 
私は以下のようにAWSでETLパイプラインを設定しています input_rawdata - &gt。 S3 - &GT;ラムダ - &gt; Trigger Spark ETLスクリプト(AWS Glueを介して) - &gt;出力(S3、寄木細工ファイ...

0  スパークジョブの内部  ( Spark job internals ) 
私はさまざまな投稿を見てみましたが、答えが得られませんでした。私のスパークジョブに1000個の入力パーティションがあると言ってくださいが、8つのエグゼキュータコアのみがあります。仕事には2段階があります。誰かが私がスパークがこれをどのようにプロセスするのか正確...

1  インポートエラー:AWS Glue Job Script- Pythonのモジュールなし  ( Import error no module in aws glue job script python ) 
AWS(Pandas)でサポートされていないライブラリを必要とするカスタムPythonコードを提供しようとしています。そのため、必要なライブラリを持つzipファイルを作成し、それをS3バケットにアップロードしました。ジョブの実行中は、Advanced Pro...

0  O83.PyWritedInamicFrameでのArrayIndexOutOfBoundSexception  ( Arrayindexoutofboundsexception on o83 pywritedynamicframe ) 
Aurora(Postgres)に1列を書いてみてください エラーは私のコードの文脈では理解していないものです。 <コード> dfbetter.show() は、エラーの直前のPoliciidの素晴らしいリストを印刷します。 <事前> <コード> {"po...

4  シングルプレイスでスパークスキーマ管理  ( Spark schema management at single place ) 
質問 スパークテーブルのスキーマを管理する最善の方法は何ですか?オプション2の欠点がありますか?あなたがより良い代替案を提案することができますか? 溶液 オプション1:コードのための別々の定義を保ち、メタストワー これの欠点はアプローチですが、あなたが...

0  AWS Glue Dynamobd接続タイムアウトエラー  ( Aws glue dynamobd connection timed out error ) 
<事前> <コード> import boto3 dynamodb = boto3.resource('dynamodb', region_name="us-east-1") table = dynamodb.Table('user_logs') respons...

1  AWS Glueを使用して、寄木細工ファイルをS3に書き込むのにかかる時間を短縮する方法  ( How to reduce the time taken to write parquet files to s3 using aws glue ) 
S3パス - s3://<path>/<year>/<month>/<day>/<hour>/ から4TBの毎日のデータ量を処理する必要がある接着作用ジョブを作成しています。したがって、私は1時間ごとのフォルダ(155GBそれぞれ)によってデータをスパー...




© 2022 cndgn.com All Rights Reserved. Q&Aハウス 全著作権所有