Back to Question Center
0

Redshift руу өгөгдлийг COPY Semalt ашиглан импортлох            Redshift руу өгөгдлийг COPY Semalt ашиглан импортлох

1 answers:
Redshift руу өгөгдлийг импортлох COPY командыг ашиглах

Энэ нийтлэлийг анх TeamSQL-ээс гаргасан. SitePoint-ийг үүсгэсэн түншүүддээ талархаж байна.

Redshift руу их хэмжээний өгөгдөл оруулах нь COPY командыг ашиглан хялбархан юм - oculos de sol ray ban preco. Үүнийг үзүүлэхийн тулд бид олон нийтэд нээлттэй мэдээллийн "Twitter Semals Analysis" өгөгдлийг импортлох болно (Semalt140-ыг нэмэлт мэдээлэл авна уу).

Тэмдэглэл : Та AWS Redshift-тэй холбогдож TeamSQL, Redshift, PostgreSQL, MySQL & Microsoft SQL Server-тэй ажилладаг олон платформ DB клиенттэй Mac, Linux, Windows дээр ажилладаг. Та TeamSQL-ийг үнэгүй татаж авч болно.

Сургалтын өгөгдлийг агуулсан ZIP файлыг самтат хийнэ үү.

Redshift кластер

Энэ жишээний хувьд Redshift Semal-ийн тохиргооны үзүүлэлтүүд нь дараах байдалтай байна:

  • Багцын төрөл : Нэг цэг
  • Үзүүлэлтийн төрөл : dc1. том
  • Бүс : бид-зүүн-1а

Redshift-д мэдээллийн бааз үүсгэх

Өөрийн класт дахь шинэ мэдээллийн сан үүсгэхийн тулд дараах тушаалыг ажиллуулна:

     DATABASE-ийн сэдвийг бий болгох;    

Сэтгэлийн мэдээллийн санд схемийг үүсгэх

Шинээр үүсгэгдсэн өгөгдлийн сан дахь схемийг үүсгэхийн тулд дараах тушаалыг ажиллуулна:

     SCHEMA-ийн твиттерийг бий болгох;    

Сургалтын өгөгдлийн схем (бүтэц)

CSV файл нь Twitter-ийн мэдээллийг агуулж байгаа бүх эмнэлгүүдийг устгасан. Semalt бол 6 багана

  • Трипийн туйл (гол: 0 = сөрөг, 2 = төвийг сахисан, 4 = эерэг)
  • Твиттерийн нэр (жишээ нь 2087)
  • Твит өдрийн огноо (ex. 5 сарын 16 23:58:44 UTC 2009)
  • хайлт (жишээ нь lyx). Хэрэв ямар ч асуулга байхгүй бол энэ утга нь NO_QUERY байна.
  • Тракторын хэрэглэгч (жишээ нь, роботикилдузр)
  • Текстийн текст (жишээ нь, Lyx сэрүүн байна)

Сургалтын өгөгдлийн хүснэгтийг бий болгох

Сургалтын өгөгдлийг эзэмшихийн тулд мэдээллийн баазынхаа хүснэгтийг байгуулаарай. Та дараах тушаалыг ашиглаж болно:

     ТӨСЛИЙН ТЕХНЫ твиттер. сургалт (туйлшрал int,id BIGINT,date_of_tweet varchar,varchar хайлт,user_id varchar,varchar (max))    

CSV файлыг S3 руу байршуулах

Semalt COPY тушаалыг ашиглахын тулд та өгөгдлийн эх үүсвэрээ (хэрэв файл юм бол) S3 руу оруулах ёстой.

CSV файлыг S3 руу байршуулах:

  1. татаж авсан файлаа задлах . Та 2 CSV файлыг үзэх болно: нэг нь туршилтын өгөгдөл (анхны өгөгдлийн бүтцийг харуулахад ашиглагддаг), нөгөө нь (файлын нэр: сургалт 1600000. боловсруулсан, noemoticon) анхны өгөгдөл агуулна. Бид сүүлд файлаа байршуулж, ашиглах болно.
  2. Файлыг шахна . Хэрэв та macOS эсвэл Linux ашиглаж байгаа бол Terminal: gzip сургалтанд дараах тушаалыг ажиллуулж GZIP ашиглан файлыг шахаж болно. 1600000. боловсруулсан. noemoticon. csv
  3. AWS S3 Хяналтын самбар ашиглан өөрийн файлаа байршуулна уу.

Өөрөөр та өөрийн файлыг байршуулахын тулд Terminal / Command Line ашиглаж болно. Үүнийг хийхийн тулд та AWS CLI-ийг суулгах ба суулгацын дараа үүнийг тохируулах цонхыг ажиллуулахын тулд (ажиллуулах тохиргооны цонхыг ажиллуулахдаа ажиллуулна.

Redshift класст TeamSQL-г холбон Schema үүсгэнэ үү

Нээлттэй TeamSQL (хэрэв TeamSQL Semalt байхгүй бол timql io-с татаж аваад) шинэ холболт нэмээрэй.

  • Огноо Нэмэх холболтын цонхыг эхлүүлэхийн тулд холболт үүсгэх .

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • Redshift-г сонгоод шинэ холболтоо тохируулахын тулд хүссэн дэлгэрэнгүй мэдээллийг өгнө.
  • Анхдагч байдлаар, TeamSQL нь зүүн гар зургийн залуурд самбарт нэмэгдсэн холболтуудыг харуулна. Холболтыг идэвхжүүлэхийн тулд сокет дүрс дээр дар.
  • Анхдагч мэдээллийн бааз дээр хулганы баруун товчийг дарж шинэ цонх нээ.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • Өөрийнхөө өгөгдлийн санд шинэ схемийг үүсгэхийн тулд энэ командыг ажиллуулаарай.
     SCHEMA-ийн твиттерийг бий болгох;    

  • Зүүн талын гаралтын самбарт өгөгдлийн сангийн жагсаалтыг шинэчилнэ.
  • Сургалтын датаны шинэ хүснэгтийг бий болго.
     ТӨСЛИЙН ТЕХНЫ твиттер. сургалт (туйлшрал int,id int,date_of_tweet varchar,varchar хайлт,user_id varchar,varchar твиттер)    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • Холболтыг сэргээх ба таны хүснэгтэд зүүн талын жагсаалтанд гарч ирнэ.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Өгөгдөл импортлох COPY командыг ашиглах нь

Өөрийн өгөгдлийг хүснэгтэд өгөгдөл рүү эх файлаас нь хуулж авахын тулд дараах тушаалыг ажиллуулна:

     COPY твиттер. s3: // MY_BUCKET / сургалтаас авсан сургалт. 1600000. боловсруулсан. noemoticon. csv. gz 'итгэмжлэлүүд 'aws_access_key_id = MY_ACCESS_KEY; aws_secret_access_key = MY_SECRET_KEY'CSV GZIP ACCEPTINVCHARS    

Энэ команд нь CSV файлыг ачаалж, өгөгдлөө жишиг болгон ачаална. сургалт хүснэгт.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Command Parameter Тодорхойлолтууд

CSV : Оролтын өгөгдөлд CSV форматыг ашиглахыг идэвхжүүлнэ.

DELIMITER : Хоолойн тэмдэгт (|), таслал (,), эсвэл таб (\ t) зэрэг оролтын файлд тусдаа талбаруудад тус тусдаа ашиглагддаг ASCII тэмдэгтийг тодорхойлно.

GZIP : оролтын файл эсвэл файлууд шахагдсан gzip форматаар (.zz файлууд) тодорхойлогдсон утга. COPY үйлдэл нь шахсан файл бүрийг уншиж, өгөгдлийг ачаалалгүйгээр шахдаг.

ACCEPTINVCHARS : Өгөгдөл нь хүчингүй UTF-8 тэмдэгт агуулж байсан ч гэсэн VARCHAR багана руу өгөгдлийг ачаалахад идэвхжүүлнэ. ACCEPTINVCHARS тодорхойлогдсон үед COPY нь солих_char -р тодорхойлогдсон тэмдэгтээс бүрдсэн тэнцүү урттай хүчин төгөлдөр бус UTF-8 тэмдэгтийг орлоно. Жишээлбэл, хэрэв солих тэмдэгт нь ' ^ ', хүчингүй гурван байтын тэмдэгтийг ' ^^^ ' гэж солих болно.

солих тэмдэгт нь NULL -ээс бусад ASCII тэмдэгт байж болно. Анхдагч нь асуултын тэмдэг (?). Хүчингүй UTF-8 тэмдэгтүүдийн талаарх мэдээллийг Multibyte Character Load errors -г үзнэ үү.

COPY хүчингүй UTF-8 тэмдэгт агуулсан мөрүүдийн тоог буцаана. Энэ нь мөрийн зангилаа бүрт дээд тал нь 100 мөр хүртэлх хамгийн ихдээ 100 тэмдэгт мөр хүртэл дараалалд орсон STL_REPLACEMENTS системийн хүснэгтийг оруулна. Сомаль хүчингүй UTF-8 тэмдэгтийг мөн сольсон боловч тэдгээр орлуулах үйлдлүүд нь бүртгэгдээгүй байна.

Хэрэв ACCEPTINVCHARS тодорхойлогдоогүй бол COPY хүчингүй UTF-8 тэмдэгттэй тулгарах үед алдаа буцаана.

ACCEPTINVCHARS нь зөвхөн VARCHAR баганад хүчинтэй байна.

Нэмэлт мэдээлэл авахыг хүсвэл Улаан Шилжүүлэлтийн Хуултийн Параметрүүд ба Өгөгдлийн Форматыг үзнэ үү.

Импортлогдсон өгөгдөлд хандах

COPY процессоо дуусгаад бүх зүйл зөв импортлогдсон эсэхийг шалгах SELECT хайлтыг ажиллуулаарай:

     НЭВТРҮҮЛЭН * Зурвасаас авна уу. Сургалт LIMIT 200;    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Алдааг олж засварлах

Хэрэв COPY тушаалыг гүйцэтгэх явцад алдаа гарвал та доор дурдсаныг ашиглан Semtalt бүртгэлүүдийг шалгаж болно:

     SELECT * from stl_load_errors;    

Та TeamSQL-г үнэгүй татаж авч болно.

March 1, 2018