VAST-ലോഗോ

VAST S3 സ്റ്റോറേജ് ഡാറ്റ പ്ലാറ്റ്ഫോം

VAST-S3-Storage-Data-Platform-product

ഉൽപ്പന്ന വിവരം

സ്പെസിഫിക്കേഷനുകൾ

  • ഉൽപ്പന്നത്തിൻ്റെ പേര്: VAST S3 മൈഗ്രേഷൻ ടൂൾ
  • പതിപ്പ്: 1.0
  • ടാർഗെറ്റ് പ്രേക്ഷകർ: ഡാറ്റ എഞ്ചിനീയർമാർ, ഡാറ്റ ആർക്കിടെക്റ്റുകൾ, സിസ്റ്റം അഡ്മിനിസ്ട്രേറ്റർമാർ
  • അനുയോജ്യത: Hadoop, Hive, S3 സ്റ്റോറേജ് കോൺഫിഗറേഷനുകൾ

ഉൽപ്പന്ന ഉപയോഗ നിർദ്ദേശങ്ങൾ

ഓപ്ഷൻ 1: S3A അഡാപ്റ്റർ ഉപയോഗിച്ച് DistCp ഉപയോഗിച്ച് S3-ലേക്ക് ഡാറ്റ മൈഗ്രേറ്റ് ചെയ്യുന്നു

  • കേസ് ഉപയോഗിക്കുക: ബൾക്ക് ഡാറ്റ ട്രാൻസ്ഫർ സാഹചര്യങ്ങൾക്ക് അനുയോജ്യം.
  • ഉദ്ദേശം: HDFS-ൽ നിന്ന് S3-ലേക്ക് വലിയ അളവിലുള്ള അസംസ്‌കൃത ഡാറ്റ കാര്യക്ഷമമായി നീക്കുക.

ഘട്ടങ്ങൾ:

  1. കോൺഫിഗർ ചെയ്യുക /etc/hadoop/conf/core-site.xml:
                    fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a. ssl.enabled false fs.s3a.endpoint http://vippool.yourvastcluster.com
    

    Fs.s3a.endpoint എന്നത് VIP-പൂളിൻ്റെ DNS നാമമാണെന്ന് ഉറപ്പാക്കുക.

  2. DistCp കമാൻഡ് എക്സിക്യൂട്ട് ചെയ്യുക:
    hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. ഡാറ്റ കൈമാറ്റം പരിശോധിക്കുക:
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

ഓപ്ഷൻ 2: ഹൈവ് ടേബിളുകൾ മൈഗ്രേറ്റ് ചെയ്യുകയും S3A ഉപയോഗിച്ച് ഹൈവ്-മെറ്റാ ഉപയോഗിക്കുകയും ചെയ്യുക

  • കേസ് ഉപയോഗിക്കുക: ഹൈവ് ടേബിൾ മെറ്റാഡാറ്റ സംരക്ഷിക്കാൻ അനുയോജ്യം.
  • ഉദ്ദേശം: ഹൈവ് ടേബിൾ ഘടനകൾ, സ്കീമ, മെറ്റാഡാറ്റ എന്നിവ HDFS-ൽ നിന്ന് S3-ലേക്ക് മൈഗ്രേറ്റ് ചെയ്യുക.

പതിവ് ചോദ്യങ്ങൾ (FAQ)

  • ചോദ്യം: ഈ ഉപകരണത്തിൻ്റെ ടാർഗെറ്റ് പ്രേക്ഷകർ ആരാണ്?
    A: ഡാറ്റാ എഞ്ചിനീയർമാർ, ഡാറ്റ ആർക്കിടെക്റ്റുകൾ, സിസ്റ്റം അഡ്മിനിസ്ട്രേറ്റർമാർ എന്നിവർ ഹഡൂപ്പ് പരിതസ്ഥിതികളിൽ ഡാറ്റ സംഭരണവും മൈഗ്രേഷനും കൈകാര്യം ചെയ്യുന്നു.
  • ചോദ്യം: ഈ മൈഗ്രേഷൻ ടൂൾ ഉപയോഗിക്കുന്നതിനുള്ള മുൻവ്യവസ്ഥകൾ എന്തൊക്കെയാണ്?
    A: Hadoop, Hive, S3 സ്റ്റോറേജ് കോൺഫിഗറേഷനുകളുമായി പരിചയം ശുപാർശ ചെയ്യുന്നു.

HDFS ഡാറ്റയും ഹൈവ് ടേബിളുകളും VAST S3 ലേക്ക് മൈഗ്രേറ്റ് ചെയ്യുന്നതിനുള്ള മികച്ച പ്രാക്ടീസ് ഗൈഡ്

അമൂർത്തമായ

ഈ ഗൈഡ് ഒരു സമഗ്രമായ ഓവർ നൽകുന്നുview S3A അഡാപ്റ്റർ ഉപയോഗിച്ച് പരമ്പരാഗത Hive/HDFS ടേബിളുകളിൽ നിന്ന് VAST S3 സ്റ്റോറേജിലേക്ക് ഡാറ്റ മൈഗ്രേറ്റ് ചെയ്യുന്നതിനുള്ള മികച്ച രീതികൾ. ബൾക്ക് ഡാറ്റ കൈമാറ്റം, ഹൈവ് ടേബിൾ മെറ്റാഡാറ്റ സംരക്ഷിക്കൽ, ഡാറ്റ സ്ഥിരത ഉറപ്പാക്കൽ, പ്രവർത്തനരഹിതമായ സമയം കുറയ്ക്കൽ എന്നിവ ഉൾപ്പെടെ വിവിധ ഉപയോഗ സാഹചര്യങ്ങൾക്ക് അനുയോജ്യമായ ഒന്നിലധികം ഓപ്ഷനുകൾ ഇത് വാഗ്ദാനം ചെയ്യുന്നു. പ്രസക്തമായ വിഭാഗങ്ങളിൽ വിവരിച്ചിരിക്കുന്ന ഘട്ടങ്ങൾ പിന്തുടരുന്നതിലൂടെ, ഡാറ്റാ എഞ്ചിനീയർമാർക്കും അഡ്മിനിസ്ട്രേറ്റർമാർക്കും അവരുടെ നിർദ്ദിഷ്ട ആവശ്യകതകളെ അടിസ്ഥാനമാക്കി ഏറ്റവും അനുയോജ്യമായ മൈഗ്രേഷൻ രീതി തിരഞ്ഞെടുക്കാനാകും, ഇത് നിലവിലുള്ള പ്രവർത്തനങ്ങളിൽ കുറഞ്ഞ സ്വാധീനം ചെലുത്തുന്ന കാര്യക്ഷമമായ ഡാറ്റ കൈമാറ്റം ഉറപ്പാക്കുന്നു. സുഗമവും ഫലപ്രദവുമായ മൈഗ്രേഷൻ പ്രക്രിയ സുഗമമാക്കുന്നതിനുള്ള മുൻവ്യവസ്ഥകൾ, വിശദമായ മൈഗ്രേഷൻ ഘട്ടങ്ങൾ, ഒപ്റ്റിമൈസേഷൻ ടിപ്പുകൾ എന്നിവ ഈ ഗൈഡിൽ ഉൾപ്പെടുന്നു.

പ്രേക്ഷകർ
ഈ ഗൈഡ്, ഡാറ്റാ എഞ്ചിനീയർമാർ, ഡാറ്റ ആർക്കിടെക്റ്റുകൾ, ഹഡൂപ്പ് പരിതസ്ഥിതികളിൽ ഡാറ്റ സംഭരണവും മൈഗ്രേഷനും കൈകാര്യം ചെയ്യുന്നതിന് ഉത്തരവാദിത്തമുള്ള സിസ്റ്റം അഡ്മിനിസ്ട്രേറ്റർമാർ എന്നിവരെ ഉദ്ദേശിച്ചുള്ളതാണ്. Hadoop, Hive, S3 സ്റ്റോറേജ് കോൺഫിഗറേഷനുകളുമായി പരിചയം ശുപാർശ ചെയ്യുന്നു.

മുൻവ്യവസ്ഥകൾ

  • ഉചിതമായ അനുമതികളും S3 ആക്‌സസ്സും ഉള്ള വലിയ ഉപയോക്താവ്, രഹസ്യ കീകൾ: ഉപയോക്താക്കളെ നിയന്ത്രിക്കുന്നു
  • VAST ക്ലസ്റ്ററിലെ S3 ബക്കറ്റ്: ബക്കറ്റുകൾ കൈകാര്യം ചെയ്യുന്നു
  • ബക്കറ്റ് ഉടമയ്‌ക്കായി അസൈൻ ചെയ്‌ത ഐഡൻ്റിറ്റി പോളിസി: S3 ആക്‌സസ് മാനേജിംഗ്
  • VAST VIP-കളും ഹഡൂപ്പ് ക്ലസ്റ്ററും തമ്മിലുള്ള നെറ്റ്‌വർക്ക് കണക്റ്റിവിറ്റി: നെറ്റ്‌വർക്ക് കോൺഫിഗറേഷൻ
  • DistCp ഉപയോഗിച്ച് ഹഡൂപ്പ് ഓൺ-പ്രിമൈസ് ഇൻസ്റ്റാൾ ചെയ്തു

മൈഗ്രേഷൻ ഓപ്ഷനുകൾ

ഓപ്ഷൻ 1: S3A അഡാപ്റ്റർ ഉപയോഗിച്ച് DistCp ഉപയോഗിച്ച് S3-ലേക്ക് ഡാറ്റ മൈഗ്രേറ്റ് ചെയ്യുന്നു

കേസ് ഉപയോഗിക്കുക
എച്ച്‌ഡിഎഫ്എസിൽ നിന്ന് എസ്3യിലേക്ക് വലിയ അളവിലുള്ള അസംസ്‌കൃത ഡാറ്റ കാര്യക്ഷമമായി നീക്കുക എന്നതാണ് പ്രാഥമിക ലക്ഷ്യം ബൾക്ക് ഡാറ്റാ ട്രാൻസ്ഫർ സാഹചര്യങ്ങൾക്ക് ഈ ഓപ്ഷൻ അനുയോജ്യമാണ്. ഹൈവ് ടേബിൾ മെറ്റാഡാറ്റ സംരക്ഷിക്കുന്നത് ആശങ്കാജനകമല്ലെങ്കിൽ ഇത് അനുയോജ്യമാണ്.

ഉദ്ദേശം
S3A അഡാപ്റ്ററിനൊപ്പം DistCp (ഡിസ്ട്രിബ്യൂട്ടഡ് കോപ്പി) ഉപയോഗിക്കുന്നതിൻ്റെ പ്രധാന ഉദ്ദേശം, HDFS-ൽ നിന്ന് S3 സ്റ്റോറേജിലേക്ക് ഡാറ്റ വേഗത്തിലും ഫലപ്രദമായും കൈമാറുന്നതിന് അതിൻ്റെ സമാന്തര പകർത്തൽ കഴിവുകൾ പ്രയോജനപ്പെടുത്തുക എന്നതാണ്. ഈ രീതി ഡാറ്റ സ്കെയിൽ ചെയ്യാവുന്നതും കരുത്തുറ്റതുമായ രീതിയിൽ നീക്കുന്നുവെന്ന് ഉറപ്പാക്കുന്നു.

പടികൾ

  1. കോൺഫിഗർ ചെയ്യുക /etc/hadoop/conf/core-site.xml: ഹഡൂപ്പ് കോൺഫിഗറേഷൻ അപ്ഡേറ്റ് ചെയ്യുക file S3A ക്രെഡൻഷ്യലുകളും എൻഡ്‌പോയിൻ്റ് വിവരങ്ങളും ഉൾപ്പെടുത്താൻ.
    • fs.s3a.access.key
    • RBY76D9A..
    • fs.s3a.secret.key
    • aBa6Odt/u/ua2J3ACABpa2..
    • fs.s3a.path.style.access
    • സത്യം
    • fs.s3.enable-storage-classes
    • സത്യം
    • fs.s3a.connection.ssl.enabled
    • തെറ്റായ
    • fs.s3a.endpoint
    • http://vippool.yourvastcluster.com</value>
    • Fs.s3a.endpoint എന്നത് വിഐപി പൂളിൻ്റെ ഒരു DNS നാമമാണെന്ന് ഉറപ്പാക്കുക, അതിനാൽ CNODE-കൾക്കിടയിൽ ബാലൻസിങ് സജീവമാക്കും.
  2. DistCp കമാൻഡ് എക്സിക്യൂട്ട് ചെയ്യുക: HDFS പാതയിൽ നിന്ന് ടാർഗെറ്റ് S3 ബക്കറ്റിലേക്ക് ഡാറ്റ പകർത്താൻ DistCp കമാൻഡ് ഉപയോഗിക്കുക. hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. ഡാറ്റ കൈമാറ്റം സ്ഥിരീകരിക്കുക: കൈമാറ്റത്തിന് ശേഷം, S3 ബക്കറ്റിലെ ഉള്ളടക്കങ്ങൾ ലിസ്റ്റ് ചെയ്ത് ഡാറ്റ ശരിയായി പകർത്തിയെന്ന് പരിശോധിക്കുക.
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

ഓപ്ഷൻ 2: ഹൈവ് ടേബിളുകൾ മൈഗ്രേറ്റ് ചെയ്യുകയും S3A ഉപയോഗിച്ച് ഹൈവ്-മെറ്റാ ഉപയോഗിക്കുകയും ചെയ്യുന്നു

കേസ് ഉപയോഗിക്കുക:
ഹൈവ് സ്കീമയും ടേബിൾ നിർവചനങ്ങളും സംരക്ഷിക്കപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കാൻ ഹൈവ് ടേബിളുകൾ അവയുടെ മെറ്റാഡാറ്റയ്‌ക്കൊപ്പം മൈഗ്രേറ്റ് ചെയ്യേണ്ടത് നിർണായകമായ സാഹചര്യങ്ങൾക്ക് ഈ ഓപ്ഷൻ അനുയോജ്യമാണ്. എസ് 3 ലേക്ക് മൈഗ്രേഷൻ കഴിഞ്ഞ് ഹൈവ് ടേബിളുകളുടെ സമഗ്രതയും പ്രവർത്തനക്ഷമതയും നിലനിർത്താൻ ഇത് അനുയോജ്യമാണ്.

ഉദ്ദേശം:
സ്കീമ നിർവചനങ്ങളും മെറ്റാഡാറ്റയും ഉൾപ്പെടെയുള്ള ഹൈവ് ടേബിൾ ഘടനകളെ HDFS-ൽ നിന്ന് S3-ലേക്ക് പരിധികളില്ലാതെ മൈഗ്രേറ്റ് ചെയ്യുക എന്നതാണ് ഈ രീതിയുടെ പ്രാഥമിക ലക്ഷ്യം. ഇത് ഹൈവ് ടേബിളുകൾ ചോദ്യം ചെയ്യാവുന്നതാണെന്നും പുതിയ സ്റ്റോറേജ് പരിതസ്ഥിതിയിൽ അവയുടെ നിർവചിക്കപ്പെട്ട ഘടന നിലനിർത്തുമെന്നും ഇത് ഉറപ്പാക്കുന്നു.

Hive S3A കോൺഫിഗറേഷൻ
ഘട്ടങ്ങൾ:
മാറ്റിസ്ഥാപിക്കുക നിങ്ങളുടെ S3A ബക്കറ്റിൻ്റെ പേരിനൊപ്പം. ഈ മുൻample mydb എന്ന പേരിൽ ഒരു Hive ഡാറ്റാബേസും mytable എന്ന് പേരുള്ള ഒരു ടേബിളും ഒരു ടെക്‌സ്‌റ്റായി സംഭരിക്കുന്നു file എസ് 3 എയിൽ.

  1. S3A-യ്‌ക്കായി ഹൈവ് കോൺഫിഗർ ചെയ്യുക: S3A കണക്റ്റർ ഡിഫോൾട്ടായി സജ്ജമാക്കുക fileകൂട് വേണ്ടി സിസ്റ്റം. fs.defaultFS=s3a:// സജ്ജമാക്കുക /
  2. ഹൈവ് ഡാറ്റാബേസ് സൃഷ്‌ടിക്കുക: മൈഗ്രേറ്റഡ് ടേബിളുകൾ സംഭരിക്കുന്ന ഒരു പുതിയ ഹൈവ് ഡാറ്റാബേസ് സൃഷ്‌ടിക്കുക. ഡാറ്റാബേസ് mydb സൃഷ്ടിക്കുക;
  3. S3-ൽ Hive Table സൃഷ്‌ടിക്കുക: S3-ൽ സംഭരിച്ചിരിക്കുന്ന ഡാറ്റയെ റഫറൻസ് ചെയ്യുന്ന Hive ഡാറ്റാബേസിൽ ഒരു പട്ടിക സൃഷ്‌ടിക്കുക. mydb.mytable പട്ടിക സൃഷ്ടിക്കുക (col1 INT, col2 STRING)
    വാചകമായി സംഭരിച്ചുFILE
    ലൊക്കേഷൻ 's3a:// /mytable/';
  4. പട്ടിക സൃഷ്‌ടിക്കൽ പരിശോധിച്ചുറപ്പിക്കുക: പട്ടിക വിജയകരമായി സൃഷ്‌ടിച്ചിട്ടുണ്ടെന്നും അത് ശരിയായ S3 ലൊക്കേഷനിലേക്കാണ് വിരൽ ചൂണ്ടുന്നതെന്നും ഉറപ്പാക്കുക.
    ടേബിളുകൾ കാണിക്കുക;

ഈ ഘട്ടങ്ങൾ പാലിക്കുന്നതിലൂടെ, നിങ്ങൾക്ക് Hive ടേബിളുകൾ S3-ലേക്ക് ഫലപ്രദമായി മൈഗ്രേറ്റ് ചെയ്യാനും, സ്കീമയും മെറ്റാഡാറ്റയും സംരക്ഷിക്കാനും, ടേബിളുകൾ അവയുടെ പുതിയ ലൊക്കേഷനിൽ പ്രവർത്തനക്ഷമവും ചോദ്യം ചെയ്യാവുന്നതുമാണെന്ന് ഉറപ്പാക്കുകയും ചെയ്യാം. ഹൈവ് ടേബിളുകളുടെ ലോജിക്കൽ ഘടന നിലനിർത്തുന്നത് നിർണായകമായ സാഹചര്യത്തിൽ ഈ രീതി അത്യന്താപേക്ഷിതമാണ്.

കഴിഞ്ഞുview - പ്രവർത്തനരഹിതമായ മൈഗ്രേഷൻ

കേസ് ഉപയോഗിക്കുക:
പ്രവർത്തനരഹിതമായ സമയമോ അല്ലെങ്കിൽ നടന്നുകൊണ്ടിരിക്കുന്ന പ്രവർത്തനങ്ങളിൽ തടസ്സമോ ഉണ്ടാക്കാതെ ഒരു പുതിയ സ്റ്റോറേജ് ലൊക്കേഷനിലേക്ക് ഡാറ്റ മൈഗ്രേറ്റ് ചെയ്യേണ്ട സാഹചര്യങ്ങൾക്ക് ഈ രീതി അനുയോജ്യമാണ്.

ഉദ്ദേശം:
മൈഗ്രേഷൻ പ്രക്രിയയിൽ ഡാറ്റയുടെ തുടർച്ചയായ ലഭ്യത ഉറപ്പാക്കിക്കൊണ്ട്, ഒരു സ്റ്റോറേജ് ലൊക്കേഷനിൽ നിന്ന് മറ്റൊന്നിലേക്ക് പരിധിയില്ലാതെ ഡാറ്റ മൈഗ്രേറ്റ് ചെയ്യുന്നതിന്.

പടികൾ

  1. ഒരു പുതിയ പട്ടിക സൃഷ്‌ടിക്കുക: യഥാർത്ഥ പട്ടികയുടെ അതേ സ്കീമ ഉപയോഗിച്ച് ആവശ്യമുള്ള സ്റ്റോറേജ് ലൊക്കേഷനിൽ ഒരു പുതിയ പട്ടിക സൃഷ്‌ടിക്കുക. mytable പോലെ പുതിയ പട്ടിക ഉണ്ടാക്കുക;
  2. പുതിയ പട്ടികയിലേക്ക് ഡാറ്റ പകർത്തുക: യഥാർത്ഥ പട്ടികയിൽ നിന്ന് പുതിയ പട്ടികയിലേക്ക് ഡാറ്റ പകർത്താൻ INSERT INTO പ്രസ്താവന ഉപയോഗിക്കുക.
    ന്യൂടേബിളിലേക്ക് തിരുകുക * മൈറ്റബിളിൽ നിന്ന് തിരഞ്ഞെടുക്കുക;
  3. ഒറിജിനൽ ടേബിളിലേക്ക് റഫറൻസുകൾ അപ്‌ഡേറ്റ് ചെയ്യുക: ഡാറ്റ പകർത്തിക്കഴിഞ്ഞാൽ, പുതിയ ടേബിളിലേക്ക് പോയിൻ്റ് ചെയ്യുന്നതിന് യഥാർത്ഥ പട്ടികയിലേക്ക് ഏതെങ്കിലും റഫറൻസുകൾ അപ്‌ഡേറ്റ് ചെയ്യുക.
    ALTER TABLE mytable_external SET LOCATION 'new_location' ;
  4. ഒറിജിനൽ ടേബിൾ ഡ്രോപ്പ് ചെയ്യുക: എല്ലാ റഫറൻസുകളും അപ്‌ഡേറ്റ് ചെയ്‌തിട്ടുണ്ടെന്നും പുതിയ ടേബിൾ ശരിയായി പ്രവർത്തിക്കുന്നുണ്ടെന്നും ഉറപ്പാക്കിയ ശേഷം, ഉറവിടങ്ങൾ സ്വതന്ത്രമാക്കാൻ യഥാർത്ഥ പട്ടിക ഡ്രോപ്പ് ചെയ്യുക.
    ഡ്രോപ്പ് ടേബിൾ മൈറ്റബിൾ;

ഈ ഘട്ടങ്ങൾ പാലിക്കുന്നതിലൂടെ, തുടർച്ചയായ ഡാറ്റാ ലഭ്യതയും നിങ്ങളുടെ പ്രവർത്തനങ്ങൾക്ക് കുറഞ്ഞ തടസ്സവും ഉറപ്പാക്കിക്കൊണ്ട് നിങ്ങൾക്ക് ഒരു സ്റ്റോറേജ് ലൊക്കേഷനിൽ നിന്ന് മറ്റൊന്നിലേക്ക് നിങ്ങളുടെ അപ്പാച്ചെ ഹൈവ് ടേബിൾ മൈഗ്രേറ്റ് ചെയ്യാം.

ഓപ്ഷൻ 2a: ഹൈവ് സ്നാപ്പ്ഷോട്ടുകൾ (CTAS) ഉപയോഗിച്ചുള്ള മൈഗ്രേഷൻ

കേസ് ഉപയോഗിക്കുക:
ഡാറ്റയുടെ ഇടപാട് സ്ഥിരതയുള്ള സ്നാപ്പ്ഷോട്ട് ആവശ്യമായ സാഹചര്യങ്ങൾക്ക് ഈ രീതി അനുയോജ്യമാണ്. ഒരു സ്ഥിരതയുള്ള സ്നാപ്പ്ഷോട്ടിൽ ഡാറ്റ മൈഗ്രേഷൻ, ബാക്കപ്പുകൾ അല്ലെങ്കിൽ അനലിറ്റിക്സ് എന്നിവയ്ക്ക് ഇത് ഉപയോഗപ്രദമാണ്.

ഉദ്ദേശം:
CTAS-ൻ്റെ പ്രാഥമിക ലക്ഷ്യം (തിരഞ്ഞെടുക്കുന്നതുപോലെ പട്ടിക സൃഷ്ടിക്കുക) ഒരു നിശ്ചിത സമയത്ത് ഡാറ്റയുടെ സ്ഥിരതയുള്ള സ്നാപ്പ്ഷോട്ട് സൃഷ്ടിക്കുക എന്നതാണ്. സ്നാപ്പ്ഷോട്ടിൻ്റെ പോയിൻ്റ് വരെ ഡാറ്റയിലെ എല്ലാ മാറ്റങ്ങളും ഉൾപ്പെടുത്തിയിട്ടുണ്ട്, ഇത് മൈഗ്രേഷനോ വിശകലനത്തിനോ സ്ഥിരമായ ഒരു ഡാറ്റാ അവസ്ഥ നൽകുന്നു.

പടികൾ:

  1. സ്‌നാപ്പ്‌ഷോട്ട് സൃഷ്‌ടിക്കുക (സോഴ്‌സ് ടേബിൾ): CREATE TABLE AS SELECT സ്റ്റേറ്റ്‌മെൻ്റ് ഉപയോഗിച്ച് ഉറവിട പട്ടികയുടെ ഒരു സ്‌നാപ്പ്‌ഷോട്ട് സൃഷ്‌ടിക്കുക. ഈ കമാൻഡ് ഒരു പുതിയ ടേബിൾ സ്റ്റോർ _sales_snap സൃഷ്‌ടിക്കുകയും സ്റ്റോർ _ വിൽപ്പനയിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് അത് പോപ്പുലേറ്റ് ചെയ്യുകയും ചെയ്യുന്നു. ഈ പോയിൻ്റിന് ശേഷം സ്റ്റോർ _ സെയിൽസ് ടേബിളിൽ വരുത്തിയ മാറ്റങ്ങൾ മൈഗ്രേഷൻ പ്രക്രിയയെ ബാധിക്കില്ലെന്ന് ഇത് ഉറപ്പാക്കുന്നു.
    സ്റ്റോർ_സെയിൽസിൽ നിന്ന് * തിരഞ്ഞെടുക്കുക പോലെ ടേബിൾ സ്‌റ്റോർ_സെയിൽസ്_സ്‌നാപ്പ് സൃഷ്‌ടിക്കുക;
  2. സ്‌നാപ്പ്‌ഷോട്ട് എക്‌സ്‌പോർട്ട് ചെയ്യുക (സോഴ്‌സ് ടേബിൾ): INSERT OVERWRITE DIRECTORY കമാൻഡ് ഉപയോഗിച്ച് ആവശ്യമുള്ള S3 ലൊക്കേഷനിലേക്ക് സ്‌നാപ്പ്‌ഷോട്ട് ഡാറ്റ എക്‌സ്‌പോർട്ട് ചെയ്യുക. ഇത് HDFS-ൽ നിന്ന് ഡെസ്റ്റിനേഷൻ സ്റ്റോറേജ് ആയ VAST S3 ബക്കറ്റിലേക്ക് ഡാറ്റ നീക്കുന്നു. ഓവർറൈറ്റ് ഡയറക്‌ടറി ചേർക്കുക 's3://my-s3-bucket/export -path' തിരഞ്ഞെടുക്കുക * store_sales_snap-ൽ നിന്ന്;
  3. പട്ടിക പുനഃസ്ഥാപിക്കുക (ഡെസ്റ്റിനേഷൻ ടേബിൾ): ലക്ഷ്യസ്ഥാനത്ത് ഒരു പുതിയ പട്ടിക സൃഷ്‌ടിച്ച് അത് S3-ൽ എക്‌സ്‌പോർട്ട് ചെയ്‌ത ഡാറ്റയിലേക്ക് പോയിൻ്റ് ചെയ്യുക. ടേബിൾ സൃഷ്‌ടിക്കുക ... ലൈക്ക് സ്റ്റേറ്റ്‌മെൻ്റ്, സ്റ്റോർ _ സെയിൽസിൻ്റെ അതേ സ്കീമയോടെ ഒരു പുതിയ ടേബിൾ ഡെസ്റ്റിനേഷൻ _ സ്റ്റോർ _ സെയിൽസ് സൃഷ്ടിക്കുന്നു. ALTER TABLE … SET LOCATION സ്റ്റേറ്റ്മെൻ്റ്, സ്നാപ്പ്ഷോട്ട് ഡാറ്റ കയറ്റുമതി ചെയ്ത S3 പാതയിലേക്ക് ഡെസ്റ്റിനേഷൻ _ സ്റ്റോർ _ വിൽപ്പനയുടെ സ്ഥാനം മാറ്റുന്നു.
    സ്റ്റോർ_സെയിൽസ് പോലെ ഡെസ്റ്റിനേഷൻ_സ്റ്റോർ_സെയിൽസ് പട്ടിക സൃഷ്ടിക്കുക; ALTER TABLE destination_store_sales സെറ്റ് ലൊക്കേഷൻ 's3://my-s3-bucket/export-path';

ഈ മൈഗ്രേഷൻ പ്രക്രിയയിൽ, സോഴ്സ് ടേബിളിൻ്റെ (സ്റ്റോർ _ സെയിൽസ്) ഒരു സ്നാപ്പ്ഷോട്ട് സൃഷ്ടിക്കുകയും ഒരു S3 ബക്കറ്റിലേക്ക് കയറ്റുമതി ചെയ്യുകയും ചെയ്യുന്നു. എ
പുതിയ പട്ടിക (ഡെസ്റ്റിനേഷൻ _ സ്റ്റോർ _ സെയിൽസ്) പിന്നീട് അതേ സ്കീമ ഉപയോഗിച്ച് ലക്ഷ്യസ്ഥാനത്ത് സൃഷ്‌ടിക്കുകയും S3-ലെ എക്‌സ്‌പോർട്ട് ചെയ്‌ത ഡാറ്റയുമായി ലിങ്ക് ചെയ്യുകയും ചെയ്യുന്നു. ഈ രീതി ഉറവിടത്തിൽ നിന്ന് ലക്ഷ്യസ്ഥാനത്തേക്ക് ഡാറ്റയുടെ സ്ഥിരവും ഒറ്റപ്പെട്ടതുമായ മൈഗ്രേഷൻ ഉറപ്പാക്കുന്നു.

ഓപ്ഷൻ 2ബി: S3 ടെമ്പ് ബക്കറ്റ് ഉപയോഗിച്ചുള്ള മൈഗ്രേഷൻ

കേസ് ഉപയോഗിക്കുക:
ഇടനില സംഭരണ ​​ലൊക്കേഷനായി ഒരു താൽക്കാലിക S3 ബക്കറ്റ് ഉപയോഗിച്ച് മൈഗ്രേഷൻ സമയത്ത് ഡാറ്റ സ്ഥിരത ഉറപ്പാക്കേണ്ട സാഹചര്യങ്ങൾക്ക് ഈ രീതി അനുയോജ്യമാണ്.

ഉദ്ദേശം:
ഒരു താൽക്കാലിക S3 ബക്കറ്റ് ഉപയോഗിക്കുന്നതിൻ്റെ പ്രാഥമിക ഉദ്ദേശം ഇങ്ങനെ നൽകുക എന്നതാണ്tagHDFS-ൽ നിന്ന് VAST S3-ലേക്കുള്ള മൈഗ്രേഷൻ പ്രക്രിയയിൽ ഡാറ്റ സ്ഥിരത ഉറപ്പാക്കുന്ന ing ഏരിയ.

ഘട്ടങ്ങൾ:

  1. ഒരു താൽക്കാലിക S3 ബക്കറ്റിലേക്ക് ഉറവിട പട്ടിക കയറ്റുമതി ചെയ്യുക: HDFS-ലെ സ്റ്റോർ _ സെയിൽസ് ടേബിളിൽ നിന്ന് ഡാറ്റ പകർത്തുക, S3-ലെ ഒരു താൽക്കാലിക സ്ഥലത്തേക്ക്. എക്സ്പോർട്ട് ടേബിൾ സ്റ്റേറ്റ്മെൻ്റ് ഉപയോഗിച്ചാണ് ഇത് ചെയ്യുന്നത്.
    's3://your_temp_bucket/store_sales_temp' എന്നതിലേക്ക് ടേബിൾ സ്റ്റോർ_സെയിൽസ് എക്‌സ്‌പോർട്ട് ചെയ്യുക;
  2. Hive-ൽ ടാർഗെറ്റ് ടേബിൾ സൃഷ്ടിക്കുക: S3-ൽ ടാർഗെറ്റ് ടേബിളിൻ്റെ സ്കീമയും സ്ഥാനവും നിർവചിക്കുക. ഉപയോഗിക്കുക
    സ്റ്റോർ _ സെയിൽസ് ടേബിളിന് സമാനമായ ഒരു ടേബിൾ സ്‌കീമ സൃഷ്‌ടിക്കാൻ എക്‌സ്‌റ്റേണൽ ടേബിൾ സ്റ്റേറ്റ്‌മെൻ്റ് സൃഷ്‌ടിക്കുകയും ഡാറ്റ സ്റ്റോറേജ് ഫോർമാറ്റ് വ്യക്തമാക്കുകയും ചെയ്യുക (ഉദാ, PARQUET).
    എക്‌സ്‌റ്റേണൽ ടേബിൾ സൃഷ്‌ടിക്കുക store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT,
    • ss_wholesale_cost DECIMAL(7,2),
    • ss_list_price DECIMAL(7,2),
    • ss_sales_price DECIMAL(7,2),
    • ss_ext_discount_amt DECIMAL(7,2),
    • ss_ext_sales_price DECIMAL(7,2),
    • ss_ext_wholesale_cost DECIMAL(7,2),
    • ss_ext_list_price DECIMAL(7,2),
    • ss_ext_tax DECIMAL(7,2),
    • ss_coupon_amt DECIMAL(7,2),
    • ss_net_paid DECIMAL(7,2),
    • ss_net_paid_inc_tax DECIMAL(7,2),
    • ss_net_profit DECIMAL(7,2)
    • പാർക്ക്വെറ്റായി സംഭരിച്ചു
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  3. താൽക്കാലിക S3 ബക്കറ്റിൽ നിന്ന് ടാർഗെറ്റ് ടേബിളിലേക്ക് ഡാറ്റ ഇമ്പോർട്ടുചെയ്യുക: താൽക്കാലിക S3 ബക്കറ്റിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് സ്റ്റോർ _sales_s3 പട്ടിക പോപ്പുലേറ്റ് ചെയ്യുക. താൽക്കാലിക S3 ലൊക്കേഷനിൽ നിന്ന് S3-ലെ സ്റ്റോർ _sales_s3 ടേബിളിലേക്ക് ഡാറ്റ പകർത്താൻ INSERT OVERWRITE TABLE സ്റ്റേറ്റ്മെൻ്റ് ഉപയോഗിക്കുക.
    ഓവർറൈറ്റ് ടേബിൾ ചേർക്കുക store_sales_s3 തിരഞ്ഞെടുക്കുക * 's3://your_temp_bucket/store_sales_temp' എന്നതിൽ നിന്ന്;
  4. താൽക്കാലിക എസ് 3 ബക്കറ്റും അതിൻ്റെ ഉള്ളടക്കവും ഉപേക്ഷിക്കുക: താൽക്കാലിക ഡാറ്റ ഇല്ലാതാക്കി വൃത്തിയാക്കുക. ഡാറ്റ മൈഗ്രേഷൻ പൂർത്തിയായ ശേഷം, താൽക്കാലിക സംഭരണം ആവശ്യമില്ല. ഹഡൂപ്പ് ഉപയോഗിക്കുക file താൽക്കാലിക S3 ബക്കറ്റ് നീക്കം ചെയ്യുന്നതിനുള്ള സിസ്റ്റം കമാൻഡ്. hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp

ഇടനില സംഭരണമായി ഒരു താൽക്കാലിക S3 ബക്കറ്റ് ഉപയോഗിച്ച് HDFS-ൽ നിന്ന് S3-ലേക്ക് കാര്യക്ഷമമായ ഡാറ്റ മൈഗ്രേഷൻ ഈ രീതി സഹായിക്കുന്നു. ഇത് ഡാറ്റ സ്ഥിരത ഉറപ്പാക്കുകയും ടാർഗെറ്റ് ലൊക്കേഷനിൽ സ്കീമ, സ്റ്റോറേജ് ഫോർമാറ്റ് നിർവചനങ്ങൾ അനുവദിക്കുകയും ചെയ്യുന്നു.

ഓപ്ഷൻ 2സി: ലളിതമായ ഇൻസേർട്ട് സ്റ്റേറ്റ്‌മെൻ്റുകൾ ഉപയോഗിച്ച് ടേബിൾ ഡാറ്റ മൈഗ്രേറ്റുചെയ്യുന്നു

കേസ് ഉപയോഗിക്കുക
ഇൻ്റർമീഡിയറ്റ് ഘട്ടങ്ങളോ സങ്കീർണ്ണമായ കോൺഫിഗറേഷനുകളോ ആവശ്യമില്ലാതെ HDFS-ലെ ഒരു സോഴ്‌സ് ടേബിളിൽ നിന്ന് VAST S3-ലെ ടാർഗെറ്റ് ടേബിളിലേക്ക് ഡാറ്റ പകർത്തേണ്ട നേരായ മൈഗ്രേഷനുകൾക്ക് ഈ രീതി അനുയോജ്യമാണ്.

ഉദ്ദേശം:
VAST S3-ൽ ഒരു പുതിയ പട്ടിക സൃഷ്‌ടിക്കുകയും ലളിതമായ Hive SQL പ്രസ്താവനകൾ ഉപയോഗിച്ച് HDFS-ലെ സോഴ്‌സ് ടേബിളിൽ നിന്ന് ഡാറ്റ നേരിട്ട് പകർത്തുകയും ചെയ്യുക എന്നതാണ് പ്രാഥമിക ലക്ഷ്യം.

പടികൾ:

  1. S3-ൽ ടാർഗെറ്റ് ടേബിൾ സൃഷ്‌ടിക്കുക: HDFS-ലെ സോഴ്‌സ് ടേബിളിൻ്റെ അതേ സ്‌കീമ ഉപയോഗിച്ച് VAST S3-ൽ ഒരു പുതിയ പട്ടിക സൃഷ്‌ടിക്കുക.
    ടേബിൾ സ്കീമ നിർവചിക്കുന്നതിനും ഡാറ്റ സ്റ്റോറേജ് ഫോർമാറ്റും (ഉദാ, PARQUET) S3-ൽ ലൊക്കേഷനും വ്യക്തമാക്കുന്നതിന് ബാഹ്യ പട്ടിക സൃഷ്ടിക്കുക എന്ന പ്രസ്താവന ഉപയോഗിക്കുക.
    എക്‌സ്‌റ്റേണൽ ടേബിൾ സൃഷ്‌ടിക്കുക store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT
    • )
    • പാർക്ക്വെറ്റായി സംഭരിച്ചു
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  2. ഉറവിട പട്ടികയിൽ നിന്ന് ടാർഗെറ്റ് ടേബിളിലേക്ക് ഡാറ്റ പകർത്തുക: HDFS-ലെ സോഴ്സ് ടേബിളിൽ നിന്ന് S3-ലെ ടാർഗെറ്റ് ടേബിളിലേക്ക് ഡാറ്റ പകർത്താൻ INSERT INTO സ്റ്റേറ്റ്മെൻ്റ് ഉപയോഗിക്കുക.
    store_sales_s3 ലേക്ക് തിരുകുക * സ്റ്റോർ_സെയിൽസിൽ നിന്ന് തിരഞ്ഞെടുക്കുക;
  3. ഡാറ്റ മൈഗ്രേഷൻ സാധൂകരിക്കുക: S3-ലെ ടാർഗെറ്റ് ടേബിളിൽ ഡാറ്റ വിജയകരമായി എഴുതിയിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക. ടാർഗെറ്റ് ടേബിളിലെ വരികളുടെ എണ്ണം വീണ്ടെടുക്കാൻ ഒരു SELECT COUNT(*) ചോദ്യം ഉപയോഗിക്കുക, എല്ലാ റെക്കോർഡുകളും മൈഗ്രേറ്റ് ചെയ്‌തിട്ടുണ്ടോ എന്ന് സാധൂകരിക്കുന്നതിന് ഉറവിട പട്ടികയുമായി താരതമ്യം ചെയ്യുക.ds

ലളിതമായ പട്ടിക സൃഷ്‌ടിക്കുക, ഇൻസേർട്ട് ചെയ്യുക, കൂടാതെ COUNT(*) സ്റ്റേറ്റ്‌മെൻ്റുകൾ തിരഞ്ഞെടുക്കുക എന്നിവ ഉപയോഗിച്ച്, നിങ്ങൾക്ക് HDFS-ലെ ഒരു ഉറവിട പട്ടികയിൽ നിന്ന് VAST S3-ലെ ടാർഗെറ്റ് ടേബിളിലേക്ക് ഡാറ്റ ഫലപ്രദമായി മൈഗ്രേറ്റ് ചെയ്യാൻ കഴിയും. ഈ രീതി സ്കീമ നിലനിർത്തുന്നു എന്ന് ഉറപ്പാക്കുന്നു
ഡാറ്റ മൈഗ്രേഷൻ്റെ നേരായ സാധൂകരണം അനുവദിക്കുന്നു.

ഓപ്ഷൻ 2d: HDFS ടേബിളിലെ ഹൈവിൽ നിന്ന് VAST S3 ലേക്ക് ബാഹ്യ ടേബിൾ മൈഗ്രേറ്റ് ചെയ്യുന്നു

കേസ് ഉപയോഗിക്കുക:
HDFS-ലെ Hive-ൽ നിന്ന് VAST S3-ലേക്ക് ബാഹ്യ ടേബിളുകൾ മൈഗ്രേറ്റ് ചെയ്യുന്നതിനും ഒപ്റ്റിമൈസ് ചെയ്ത അന്വേഷണ പ്രകടനത്തിനായി ഡാറ്റാസെറ്റിൻ്റെ ലോജിക്കൽ ഘടനയും പാർട്ടീഷനിംഗും നിലനിർത്തുന്നതിനും ഈ രീതി അനുയോജ്യമാണ്.

ഉദ്ദേശം:
HDFS-ൽ നിന്നുള്ള സോഴ്സ് ടേബിളുമായി പൊരുത്തപ്പെടുന്ന ഒരു സ്കീമ ഉപയോഗിച്ച് VAST S3-ൽ ഒരു പുതിയ പാർട്ടീഷൻ ചെയ്ത പട്ടിക സൃഷ്ടിക്കുക എന്നതാണ് പ്രാഥമിക ലക്ഷ്യം. യഥാർത്ഥ ഡാറ്റ S3-ൽ വസിക്കുമ്പോൾ, മെറ്റാഡാറ്റ ഹൈവിൽ സംഭരിക്കപ്പെടുന്നുവെന്ന് ഇത് ഉറപ്പാക്കുന്നു, ഇത് കാര്യക്ഷമമായ ഡാറ്റ സംഭരണത്തിനും വീണ്ടെടുക്കലിനും അനുവദിക്കുന്നു.

ഘട്ടങ്ങൾ:

  1. ടാർഗെറ്റ് S3 ടേബിൾ സൃഷ്‌ടിക്കുക: HDFS-ലെ സോഴ്‌സ് ടേബിളുമായി പൊരുത്തപ്പെടുന്ന സ്‌കീമ ഉപയോഗിച്ച് VAST S3-ൽ ഒരു പുതിയ പാർട്ടീഷൻ ചെയ്‌ത ബാഹ്യ പട്ടിക സൃഷ്‌ടിക്കുക. ടേബിൾ സ്കീമ നിർവചിക്കുന്നതിനും ഡാറ്റ ഫോർമാറ്റ് വ്യക്തമാക്കുന്നതിനും (ഉദാ, PARQUET) ലൊക്കേഷൻ ഒരു VAST S3 ബക്കറ്റായി സജ്ജീകരിക്കുന്നതിനും ക്രിയേറ്റ് എക്സ്റ്റേണൽ ടേബിൾ സ്റ്റേറ്റ്മെൻ്റ് ഉപയോഗിക്കുക.
    ബാഹ്യ പട്ടിക സൃഷ്ടിക്കുക tlc_taxi_data_s3_partitioned (
    വെണ്ടർഐഡി INT,
    • tpep_pickup_datetime TIMESTAMP,
    • tpep_dropoff_datetime TIMESTAMP,
    • യാത്രക്കാരുടെ_എണ്ണം BIGINT,
    • യാത്ര_ദൂരം ഇരട്ടി,
    • റേറ്റ്കോഡ് ഐഡി ബിജിൻ്റ്,
    • store_and_fwd_flag STRING,
    • PULocationID INT,
    • DOLocationID INT,
    • Payment_type BIGINT,
    • നിരക്ക്_തുക ഇരട്ടി,
    • അധിക ഇരട്ട,
    • mta_tax ഇരട്ടി,
    • ടിപ്പ്_തുക ഇരട്ടി,
    • ടോൾ_തുക ഇരട്ടി,
    • മെച്ചപ്പെടുത്തൽ_സർചാർജ് ഇരട്ടി,
    • ആകെ_തുക ഇരട്ടി,
    • തിരക്ക്_സർചാർജ് ഇരട്ടി,
    • Airport_ഫീ ഇരട്ടി
    • )
    • വിഭജിച്ചത് (വർഷം STRING, മാസം STRING)
    • പാർക്ക്വെറ്റായി സംഭരിച്ചു
    • ലൊക്കേഷൻ 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
    • TBLPROPERTIES ('external.table.purge'='true');
    • പാർട്ടീഷനിംഗ്: പാർട്ടീഷൻ ചെയ്ത ക്ലോസ്, ഡാറ്റ വർഷവും മാസവും അനുസരിച്ച് വിഭജിക്കണമെന്ന് വ്യക്തമാക്കുന്നു, ഇത് അന്വേഷണ പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നു.
    • സ്ഥാനം: ഡാറ്റ സംഭരിക്കുന്ന VAST S3 പാത LOCATION വ്യക്തമാക്കുന്നു.
    • ടേബിൾ പ്രോപ്പർട്ടികൾ: TBLPROPERTIES പട്ടിക ഡ്രോപ്പ് ചെയ്യുമ്പോൾ, ഡാറ്റ S3-ൽ നിലനിൽക്കുന്നുവെന്ന് ഉറപ്പാക്കാൻ സജ്ജീകരിച്ചിരിക്കുന്നു.
  2. HDFS ടേബിളിലെ ഹൈവ് ഉപയോഗിച്ച് പാർട്ടീഷൻ ചെയ്‌ത പട്ടിക പോപ്പുലേറ്റ് ചെയ്യുക: സോഴ്‌സ് ടേബിളിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് tlc _ taxi _ data _ s3 _ പാർട്ടീഷൻ ചെയ്‌ത പട്ടിക പോപ്പുലേറ്റ് ചെയ്യാൻ INSERT INTO TABLE സ്റ്റേറ്റ്‌മെൻ്റ് ഉപയോഗിക്കുക.
    • S3-ലേക്ക് എഴുതുമ്പോൾ ഡാറ്റ വർഷവും മാസവും അനുസരിച്ച് വിഭജിക്കപ്പെടുന്നുവെന്ന് പാർട്ടീഷൻ ക്ലോസ് ഉറപ്പാക്കുന്നു.
    • ടേബിളിലേക്ക് തിരുകുക tlc_taxi_data_s3_പാർട്ടീഷൻ ചെയ്ത ഭാഗം (വർഷം, മാസം) തിരഞ്ഞെടുക്കുക
    • വെണ്ടർ ഐഡി,
    • tpep_pickup_datetime,
    • tpep_dropoff_datetime,
    • യാത്രക്കാരുടെ_എണ്ണം,
    • യാത്ര_ദൂരം,
    • റേറ്റ്കോഡ് ഐഡി,
    • സ്റ്റോർ_ആൻഡ്_fwd_ഫ്ലാഗ്,
    • PULocationID,
    • DOLocationID,
    • പേയ്മെൻ്റ്_തരം,
    • യാത്രക്കൂലി_തുക,
    • അധിക,
    • mta_tax,
    • ടിപ്പ്_തുക,
    • ടോൾ_തുക,
    • മെച്ചപ്പെടുത്തൽ_സർചാർജ്,
    • മൊത്തം തുക,
    • തിരക്ക്_സർചാർജ്,
    • എയർപോർട്ട്_ഫീസ്,
    • SUBSTRING(INPUT__FILE__NAME, -16, 4) വർഷം,
    • SUBSTRING(INPUT__FILE__NAME, -11, 2) മാസം
    • tlc_taxi_intermediary-ൽ നിന്ന്;

SUBSTRING ഫംഗ്‌ഷനുകൾ: ഇതിൽ നിന്ന് വർഷത്തിൻ്റെയും മാസത്തിൻ്റെയും വിവരങ്ങൾ എക്‌സ്‌ട്രാക്‌റ്റ് ചെയ്യുക file പേര്, ഒരു നിർദ്ദിഷ്ട നാമകരണ കൺവെൻഷൻ അനുമാനിക്കുന്നു.
VAST S3-ൽ ഒരു ബാഹ്യ പാർട്ടീഷൻ ചെയ്‌ത പട്ടിക സൃഷ്‌ടിക്കുകയും HDFS-ലെ ഹൈവ് ടേബിളിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് അത് പോപ്പുലേറ്റ് ചെയ്യുകയും ചെയ്യുന്നതിലൂടെ, ഡാറ്റാസെറ്റിൻ്റെ ലോജിക്കൽ ഘടന നിലനിർത്തിക്കൊണ്ട് കാര്യക്ഷമമായ ഡാറ്റ സംഭരണവും വീണ്ടെടുക്കലും ഈ രീതി ഉറപ്പാക്കുന്നു. ഈ സമീപനം ക്വറി പെർഫോമൻസ് ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനായി പാർട്ടീഷനിംഗ് പ്രയോജനപ്പെടുത്തുകയും ബാഹ്യ ടേബിളുകൾക്ക് തടസ്സമില്ലാത്ത മൈഗ്രേഷൻ പാത്ത് നൽകുകയും ചെയ്യുന്നു.

മൈഗ്രേഷൻ നിരീക്ഷിക്കുന്നു

അപ്പാച്ചെ ഹൈവിലെ കയറ്റുമതി, ഇറക്കുമതി പ്രക്രിയയുടെ പുരോഗതി നിരീക്ഷിക്കുന്നതിന്, വിവിധ ഉപകരണങ്ങളും സാങ്കേതിക വിദ്യകളും ഉപയോഗിക്കാം. പരിഗണിക്കേണ്ട നിരവധി ഓപ്ഷനുകൾ ഇതാ:

  1. ഹൈവ് CLI അല്ലെങ്കിൽ Beeline:
    • കയറ്റുമതി, ഇറക്കുമതി പ്രവർത്തനങ്ങളുടെ പുരോഗതി നിരീക്ഷിക്കാൻ ഹൈവ് കമാൻഡ്-ലൈൻ ഇൻ്റർഫേസ് (CLI) അല്ലെങ്കിൽ Beeline ഉപയോഗിക്കുക. നിങ്ങൾ ചോദ്യങ്ങൾ എക്സിക്യൂട്ട് ചെയ്യുമ്പോൾ, CLI അല്ലെങ്കിൽ Beeline അന്വേഷണ പുരോഗതിയും നിലയും പ്രദർശിപ്പിക്കുന്നു.
    • കമാൻഡുകൾ: ലോഗുകൾ പരിശോധിച്ചോ ഷോ ജോബ്സ് അല്ലെങ്കിൽ ഷോ സെഷൻസ് കമാൻഡുകൾ ഉപയോഗിച്ചോ നിങ്ങൾക്ക് പുരോഗതി നിരീക്ഷിക്കാനാകും view പ്രവർത്തിക്കുന്ന ജോലികളുടെ അല്ലെങ്കിൽ സെഷനുകളുടെ നില.
  2. ഹഡൂപ്പ് റിസോഴ്സ് മാനേജർ:
    • ഹഡൂപ്പ് റിസോഴ്സ് മാനേജർ നൽകുന്നു എ web കൂട് കയറ്റുമതി, ഇറക്കുമതി പ്രവർത്തനങ്ങളുടെ പുരോഗതി നിരീക്ഷിക്കുന്നതിനുള്ള ഇൻ്റർഫേസ്.
    • ഫീച്ചറുകൾ: View പ്രവർത്തിക്കുന്ന ജോലികളുടെയും ടാസ്ക്കുകളുടെയും അവസ്ഥ, റിസോഴ്സ് ഉപയോഗം പരിശോധിക്കുക, റിസോഴ്സ് മാനേജർ മുഖേനയുള്ള ടാസ്ക്ക് പുരോഗതി നിരീക്ഷിക്കുക web ഇൻ്റർഫേസ്.
  3. മൂന്നാം കക്ഷി മോണിറ്ററിംഗ് ടൂളുകൾ:
    • Hive സേവനം നിരീക്ഷിക്കാൻ Ganglia, Nagios അല്ലെങ്കിൽ Datadog പോലുള്ള മൂന്നാം കക്ഷി നിരീക്ഷണ ഉപകരണങ്ങൾ ഉപയോഗിക്കുക.
    • പ്രയോജനങ്ങൾ: ഹൈവ് സേവനത്തിൻ്റെയും അതിൻ്റെ ഘടകങ്ങളുടെയും പ്രകടനവും നിലയും ട്രാക്ക് ചെയ്യാൻ നിങ്ങളെ സഹായിക്കുന്നതിന് ഈ ടൂളുകൾ വിവിധ അളവുകളും ദൃശ്യവൽക്കരണങ്ങളും വാഗ്ദാനം ചെയ്യുന്നു. അവ സിസ്റ്റം പ്രകടനത്തെക്കുറിച്ചുള്ള കൂടുതൽ ഉൾക്കാഴ്‌ചകൾ നൽകുകയും മൈഗ്രേഷൻ പ്രക്രിയയ്‌ക്കിടെ ഉണ്ടാകുന്ന ഏത് പ്രശ്‌നങ്ങളെയും കുറിച്ച് നിങ്ങളെ അറിയിക്കുകയും ചെയ്യും.

ഈ ടൂളുകളും ടെക്‌നിക്കുകളും ഉപയോഗിക്കുന്നതിലൂടെ, നിങ്ങളുടെ ഡാറ്റാ മൈഗ്രേഷൻ്റെ പുരോഗതി നിങ്ങൾക്ക് ഫലപ്രദമായി നിരീക്ഷിക്കാൻ കഴിയും, കയറ്റുമതി, ഇറക്കുമതി പ്രവർത്തനങ്ങൾ പ്രതീക്ഷിച്ചതുപോലെ നടക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുകയും ഉടനടി ഉണ്ടായേക്കാവുന്ന പ്രശ്‌നങ്ങൾ പരിഹരിക്കാൻ നിങ്ങളെ അനുവദിക്കുകയും ചെയ്യുന്നു.

മൈഗ്രേഷനായി പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്ന S3A

എസ്3എ എ file S3 സ്റ്റോറേജിലേക്ക് ഡാറ്റ വായിക്കാനും എഴുതാനും Hadoop ആപ്ലിക്കേഷനുകളെ അനുവദിക്കുന്ന Apache Hadoop-നുള്ള സിസ്റ്റം നടപ്പിലാക്കൽ. ഇത് ഹഡൂപ്പിൻ്റെ നേറ്റീവ് HDFS-ന് ഒരു ബദൽ നൽകുന്നു file സിസ്റ്റം, S3-ൽ കാര്യക്ഷമമായി ഡാറ്റ സംഭരിക്കാനും ആക്സസ് ചെയ്യാനും ഉപയോക്താക്കളെ പ്രാപ്തരാക്കുന്നു. S3A ക്രമീകരണങ്ങൾ ഒപ്റ്റിമൈസ് ചെയ്യുന്നത് HDFS-ൽ നിന്ന് VAST S3-ലേക്കുള്ള ഡാറ്റാ മൈഗ്രേഷൻ്റെ പ്രകടനം ഗണ്യമായി മെച്ചപ്പെടുത്തും.

അടിസ്ഥാന കോൺഫിഗറേഷൻ (ഒപ്റ്റിമൈസേഷനുകളൊന്നുമില്ല):
താഴെ ഒരു മുൻampഒരു ട്യൂണിംഗും കൂടാതെ S3A-യ്‌ക്കുള്ള അടിസ്ഥാന core-site.xml കോൺഫിഗറേഷൻ്റെ le:

  • fs.defaultFS
  • s3a://temp1
  • hadoop.tmp.dir
  • /home/hadoop/tmp
  • fs.s3a.access.key
  • AG8SSUT6SE436AEXBPRE
  • fs.s3a.secret.key
  • SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
  • fs.s3a.path.style.access
  • സത്യം
  • fs.s3.enable-storage-classes
  • സത്യം
  • fs.s3a.connection.ssl.enabled
  • തെറ്റായ
  • fs.s3a.endpoint
  • http://vippool.yourvastcluster.com

TTL സീറോ ട്യൂണിംഗ്:
പ്രകടന കാരണങ്ങളാൽ S3A ക്ലയൻ്റ് എൻഡ്‌പോയിൻ്റ് കണക്ഷൻ കാഷെ ചെയ്യുന്നു. പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിന്, സജ്ജമാക്കുക
TTL (ജീവിക്കാനുള്ള സമയം) പൂജ്യത്തിലേക്ക്, ഒന്നിലധികം ക്നോഡുകളിൽ സ്കെയിൽ ചെയ്യാനുള്ള VAST-ൻ്റെ കഴിവ് ഉറപ്പാക്കുന്നു.
ഇനിപ്പറയുന്നവ core-site.xml-ലേക്ക് ചേർക്കുക:

  • fs.s3a.endpoint.connection.ttl
  • 0

S3A-യ്‌ക്കുള്ള അധിക ട്യൂണിംഗ്:
S3A പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിന് അധിക പാരാമീറ്ററുകൾ ട്യൂൺ ചെയ്യാൻ കഴിയും:

മൾട്ടിപാർട്ട് സൈസ്

  • ഉദ്ദേശ്യം: വലുതായി അപ്‌ലോഡ് ചെയ്യുമ്പോൾ ഓരോ ഭാഗത്തിൻ്റെയും വലുപ്പം വ്യക്തമാക്കുന്നു files മുതൽ S3 വരെ. ഈ വലുപ്പം വർധിപ്പിക്കുന്നത് വലിയ അപ്‌ലോഡ് പ്രകടനം മെച്ചപ്പെടുത്തും fileഭാഗങ്ങളുടെ എണ്ണം കുറയ്ക്കുന്നതിലൂടെ s.
  • സ്ഥിര മൂല്യം: 128 MB
  • ഒപ്റ്റിമൽ മൂല്യം: ഒപ്റ്റിമൽ മൂല്യം നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്ത്ത്, അപ്‌ലോഡ് ചെയ്യുന്ന ഡാറ്റയുടെ വലുപ്പം, S3 സ്റ്റോറേജ് ക്ലാസ് എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു. വലിയ മൂല്യങ്ങൾ വലിയവയുടെ പ്രകടനം മെച്ചപ്പെടുത്തുന്നു files എന്നാൽ നെറ്റ്‌വർക്ക് പ്രശ്‌നങ്ങൾ കാരണം പരാജയപ്പെട്ട അപ്‌ലോഡുകളുടെ അപകടസാധ്യത വർദ്ധിപ്പിച്ചേക്കാം. ഉദാഹരണത്തിന്, മൾട്ടിപാർട്ട് സൈസ് 10 MB ആയി സജ്ജീകരിക്കുന്നത് ചെറിയ അപ്‌ലോഡ് വേഗത വർദ്ധിപ്പിക്കും files എന്നാൽ വളരെ വലുതിന് അനുയോജ്യമാകണമെന്നില്ല files, ഇത് ഒരു വലിയ മൾട്ടിപാർട്ട് വലുപ്പത്തിൽ നിന്ന് പ്രയോജനം നേടിയേക്കാം.
    • fs.s3a.multipart.size 10 മി

വേഗത്തിലുള്ള അപ്‌ലോഡ് സജീവ ബ്ലോക്കുകൾ

  • ഉദ്ദേശ്യം: വേഗത്തിലുള്ള അപ്‌ലോഡ് സമയത്ത് സമാന്തരമായി അപ്‌ലോഡ് ചെയ്യുന്നതിനുള്ള പരമാവധി സജീവ ബ്ലോക്കുകളുടെ എണ്ണം നിർണ്ണയിക്കുന്നു. ഇത് വലിയവയുടെ പ്രകടനം ഗണ്യമായി മെച്ചപ്പെടുത്തും files.
  • ഡിഫോൾട്ട് മൂല്യം: 4
  • ഒപ്റ്റിമൽ മൂല്യം: ഒപ്റ്റിമൽ മൂല്യം നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്ത്ത്, ലഭ്യമായ കോറുകളുടെ എണ്ണം എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു.
    S3 സ്റ്റോറേജ് ക്ലാസ്. ഉയർന്ന മൂല്യങ്ങൾ കൂടുതൽ സമാന്തര അപ്‌ലോഡുകൾ അനുവദിക്കുമെങ്കിലും നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്ത്ത് ഉപയോഗവും S3 ലേക്കുള്ള കണക്ഷനുകളും വർദ്ധിപ്പിക്കാൻ കഴിയും. ഉദാample, നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്‌ത്തിനും S100 സേവനത്തിനും വർദ്ധിച്ച കണക്ഷനുകൾ കൈകാര്യം ചെയ്യാൻ കഴിയുമെങ്കിൽ, ഇത് 3 ആയി സജ്ജീകരിക്കുന്നത് അപ്‌ലോഡ് ത്രൂപുട്ട് വർദ്ധിപ്പിക്കും.
    • fs.s3a.fast.upload.active.blocks 100

പരമാവധി ത്രെഡുകൾ

  • ഉദ്ദേശ്യം: S3A-യ്‌ക്ക് ഉപയോഗിക്കാനാകുന്ന പരമാവധി എണ്ണം ത്രെഡുകൾ വ്യക്തമാക്കുന്നു fileസമാന്തര പ്രവർത്തനങ്ങൾക്കുള്ള സിസ്റ്റം കണക്റ്റർ. ഇതിൽ അപ്‌ലോഡ് ചെയ്യുന്നതും ഡൗൺലോഡ് ചെയ്യുന്നതും ഒബ്‌ജക്‌റ്റുകൾ ലിസ്റ്റുചെയ്യുന്നതും ഒബ്‌ജക്‌റ്റുകൾ ഇല്ലാതാക്കുന്നതും ഉൾപ്പെടുന്നു.
  • ഡിഫോൾട്ട് മൂല്യം: 256
  • ഒപ്റ്റിമൽ മൂല്യം: ഒപ്റ്റിമൽ മൂല്യം നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്ത്ത്, S3 സ്റ്റോറേജ് ക്ലാസ്, ലഭ്യമായ ക്ലയൻ്റ്/സെർവർ ഉറവിടങ്ങൾ എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു. മൂല്യം വർധിപ്പിക്കുന്നത് സമാന്തര പ്രവർത്തനങ്ങൾ മെച്ചപ്പെടുത്താമെങ്കിലും വിഭവ ഉപയോഗവും കാലതാമസവും വർദ്ധിപ്പിക്കും. ഉദാample, സിസ്റ്റത്തിൻ്റെ നെറ്റ്‌വർക്ക് ബാൻഡ്‌വിഡ്‌ത്തിനും സിപിയു ഉറവിടങ്ങൾക്കും ഇത് കൈകാര്യം ചെയ്യാൻ കഴിയുമെങ്കിൽ, ത്രെഡുകളുടെ എണ്ണം 100 ആയി വർദ്ധിപ്പിച്ചാൽ സമകാലിക പ്രവർത്തനങ്ങളുടെ വേഗത മെച്ചപ്പെടുത്താം.
    • fs.s3a.threads.max 100

ബ്ലോക്ക് വലിപ്പം

  • ഉദ്ദേശ്യം: a എന്നതിനായി ബ്ലോക്ക് വലുപ്പം സജ്ജമാക്കുന്നു file S3 ൽ സംഭരിച്ചു. Fileകൾ ബ്ലോക്കുകളായി തിരിച്ചിരിക്കുന്നു, ഓരോ ബ്ലോക്കും ഒരു പ്രത്യേക S3 ഒബ്ജക്റ്റായി സംഭരിക്കുന്നു.
  • സ്ഥിര മൂല്യം: 32 MB
  • ഒപ്റ്റിമൽ മൂല്യം: ഒപ്റ്റിമൽ മൂല്യം ആശ്രയിച്ചിരിക്കുന്നു file വലിപ്പം, ആക്സസ് പാറ്റേണുകൾ, നെറ്റ്വർക്ക് ബാൻഡ്വിഡ്ത്ത്. വലിയ ബ്ലോക്ക് വലുപ്പങ്ങൾ സൃഷ്‌ടിച്ച S3 ഒബ്‌ജക്‌റ്റുകളുടെ എണ്ണം കുറയ്ക്കുകയും വലിയവയ്‌ക്കായി വായന/എഴുത്ത് പ്രകടനം മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു fileഎസ്. ചെറിയ ബ്ലോക്കുകളുടെ വലിപ്പം ചെറുത് കൂടുതൽ അനുയോജ്യമാണ് files അല്ലെങ്കിൽ അപൂർവ്വമായി ആക്സസ് ചെയ്യപ്പെടുന്ന ഡാറ്റ. ഉദാഹരണത്തിന്, ബ്ലോക്ക് വലുപ്പം 100 MB ആയി സജ്ജീകരിക്കുന്നത് വലിയതും തുടർച്ചയായി ആക്‌സസ് ചെയ്യപ്പെടുന്നതുമായ ജോലിഭാരങ്ങൾക്ക് ഗുണം ചെയ്യും. files.
    • fs.s3a.block.size 100മീ

VAST എന്നതിനായുള്ള അധിക ട്യൂണിംഗ്:
VAST പതിപ്പ് 4.7 SP10 മുതൽ, VAST S3-ലേക്ക് ഹഡൂപ്പ് അടിസ്ഥാനമാക്കിയുള്ള ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിനായി ഒരു ഒപ്റ്റിമൈസേഷൻ ക്രമീകരണം (vtool) ഉണ്ട്. ഈ ക്രമീകരണത്തിന് ഡാറ്റാ മൈഗ്രേഷനുകളുടെ പ്രകടനം ഗണ്യമായി വർദ്ധിപ്പിക്കാൻ കഴിയും.

ഘട്ടങ്ങൾ:

  1. HDFS ക്ലസ്റ്റർ കോൺഫിഗർ ചെയ്യുക:
    ത്രെഷോൾഡും വലുപ്പവും നിങ്ങളുടെ യഥാർത്ഥ വലുപ്പത്തേക്കാൾ കൂടുതലായി സജ്ജീകരിച്ചുകൊണ്ട് മൾട്ടിപാർട്ട് അപ്‌ലോഡുകൾ പ്രവർത്തനരഹിതമാക്കിയിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക fileഎസ്. ഉദാample, നിങ്ങളുടേതാണെങ്കിൽ files സാധാരണയായി 1 GB അല്ലെങ്കിൽ അതിൽ കൂടുതലാണ്, പരിധിയും വലുപ്പവും 1 GB ആയി സജ്ജമാക്കുക. നിങ്ങളുടേതാണെങ്കിൽ അതിനനുസരിച്ച് ക്രമീകരിക്കുക fileകൾ വലുതാണ്. ചെറിയവയ്ക്കായി മൾട്ടിപാർട്ട് അപ്‌ലോഡുകൾ പ്രവർത്തനരഹിതമാക്കുന്നു files അപ്‌ലോഡ് പ്രക്രിയ ലളിതമാക്കുകയും ഓവർഹെഡ് കുറയ്ക്കുകയും ചെയ്യുന്നു.
    • core-site.xml കോൺഫിഗർ ചെയ്യുക:
    • fs.s3a.multipart.threshold 1 ജി
    • fs.s3a.multipart.size 1 ജി
    • fs.s3a.fast.upload സത്യം
  2. VAST ഒപ്റ്റിമൈസേഷൻ പ്രയോഗിക്കുക:
    • VAST-ലെ CNODE-കളിൽ ഒന്നിലേക്ക് കണക്റ്റുചെയ്യാൻ SSH ഉപയോഗിക്കുക.
    • vtool കമാൻഡ് ഉപയോഗിച്ച് ഒപ്റ്റിമൈസേഷൻ ക്രമീകരണം പ്രയോഗിക്കുക. ഈ ക്രമീകരണം ലിങ്കുകൾ ഉപയോഗിച്ചും ഡാറ്റാ മൈഗ്രേഷന് ആവശ്യമായ സമയവും വിഭവങ്ങളും കുറച്ചുകൊണ്ട് പകർപ്പ് പ്രക്രിയയെ ഒപ്റ്റിമൈസ് ചെയ്യുന്നു.
      vtool vsettings set S3_COPY_USING_LINK=true

ഈ കോൺഫിഗറേഷനുകളും ഒപ്റ്റിമൈസേഷനുകളും നടപ്പിലാക്കുന്നതിലൂടെ, നിങ്ങൾക്ക് HDFS-ൽ നിന്ന് VAST S3-ലേക്കുള്ള ഡാറ്റ മൈഗ്രേഷനായി S3A-യുടെ പ്രകടനം ഗണ്യമായി മെച്ചപ്പെടുത്താൻ കഴിയും, ഇത് കൂടുതൽ കാര്യക്ഷമവും അളക്കാവുന്നതുമായ ഡാറ്റാ കൈമാറ്റ പ്രക്രിയ ഉറപ്പാക്കുന്നു.

യൂണിവേഴ്സൽ സ്റ്റോറേജിനെക്കുറിച്ചുള്ള കൂടുതൽ വിവരങ്ങൾക്കും നിങ്ങളുടെ ആപ്ലിക്കേഷൻ പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ഇത് നിങ്ങളെ എങ്ങനെ സഹായിക്കും എന്നതിൽ ഞങ്ങളെ ബന്ധപ്പെടുക hello@vastdata.com.
©2024 VAST ഡാറ്റ, Inc. എല്ലാ അവകാശങ്ങളും നിക്ഷിപ്തം. എല്ലാ വ്യാപാരമുദ്രകളും അവയുടെ ഉടമസ്ഥരുടേതാണ്.

പ്രമാണങ്ങൾ / വിഭവങ്ങൾ

VAST S3 സ്റ്റോറേജ് ഡാറ്റ പ്ലാറ്റ്ഫോം [pdf] ഉപയോക്തൃ ഗൈഡ്
S3, S3 സ്റ്റോറേജ് ഡാറ്റ പ്ലാറ്റ്ഫോം, സ്റ്റോറേജ് ഡാറ്റ പ്ലാറ്റ്ഫോം, ഡാറ്റ പ്ലാറ്റ്ഫോം, പ്ലാറ്റ്ഫോം

റഫറൻസുകൾ

ഒരു അഭിപ്രായം ഇടൂ

നിങ്ങളുടെ ഇമെയിൽ വിലാസം പ്രസിദ്ധീകരിക്കില്ല. ആവശ്യമായ ഫീൽഡുകൾ അടയാളപ്പെടുത്തി *