Back to Question Center
0

Semalt - Скрукт Вэб хуудсыг хэрхэн хийх вэ?

1 answers:

Сайхан шөл нь Python номын сан нь задалсан мод үүсгэх замаар вэб хуудсыг хусах өргөн хэрэглэгддэг. XML болон HTML баримтаас. Вэб хаяглах, вэбсайт болон хуудсуудаас өгөгдлийг гаргаж авах аргыг мэдээллийн шинжилгээ, менежментийн талбарт өргөнөөр ашигладаг. Ихэнх тохиолдолд Python програмчлалын хэл нь өгөгдлийн шинжлэх ухааны урьдчилсан нөхцөл юм.

Пайтон 3 нь хусах хэрэгсэл болон модулиудыг өөрийн өгөгдлийн менежментийн төсөлд хэрэглэж болно - wholesale value on boats. Одоогийн байдлаар Beautiful Soup 4 шиг ажиллаж байгаа бөгөөд энэ модуль нь Python 3 болон Python 2-тэй нийцтэй байдаг. 7. Beautiful Soup 4 модуль нь хаалттай хаягт шөлийг задлахад зориулсан задалгааны модыг үүсгэх чадвартай байдаг. Энэ гарын авлагад та хуудсыг хусч, хуссан өгөгдлийг CSV файл руу хэрхэн бичих талаар сурах болно.

Эхлэх

Эхлэхийн тулд өөрийн компьютер дээр сервер эсвэл орон нутгийн тулгуурласан Python кодлох орчныг тохируулна уу. Та өөрийн машин дээрээ Beautiful Soup and Requests модулийг бас суулгах хэрэгтэй. Хоёр модультай ажиллах талаархи мэдлэг нь зайлшгүй шаардлагатай урьдчилсан нөхцөл юм. HTML тэмдэглэгээ болон бүтэцтэй танилцах нь бас давуу тал юм.

Таны өгөгдлийг ойлгох

Энэ утгаараа Үндэсний Урлагийн Галерейн бодит мэдээлэл нь Beautiful Soup 4-ийг хэрхэн ашиглах талаар ойлгоход ашиглагдах болно.Үндэсний урлагийн галерей нь 120,000 ширхэгээс 13000 орчим уран бүтээлчидтэй. Урлаг нь Вашингтонд D үндэслэсэн. C, АНУ.

Beautiful Soup-тай вэбсайт мэдээлэл нь тийм ч төвөгтэй биш юм. Жишээ нь, хэрэв та Z үсэг дээр анхаарлаа төвлөрүүлбэл, жагсаалтын эхний нэрийг тэмдэглэ. Энэ тохиолдолд эхний нэр нь Забаллиа, Никкола юм. Тогтмол байхын тулд хуудасны тоо, сүүлчийн зураачийн нэрийг тухайн хуудсанд бичнэ үү.

Хүсэлтүүд болон Beautiful Soup номын санг хэрхэн импортлох

Номын санг оруулахын тулд Python 3 програмчлалын орчинг идэвхжүүлэх. Програмын орчинтойгоо ижил сан дотор байгаа эсэхийг шалгаарай. Эхлүүлэхийн тулд дараах тушаалыг ажиллуулна уу. my_env / bin / идэвхжүүлэх.

Шинэ файл үүсгээд Beautiful Soup and Request номуудыг импортлоорой. Санхүүгийн хүсэлтүүд нь таны Python хөтөлбөрүүдэд HTTP-г ашиглах боломжтой. Гайхалтай шөл нь нөгөө талаас хуудсыг хурдан устгах ажилд ажилладаг. Beautiful Soup-ийг импортлох bs4-г ашиглах.

Вэб хуудсыг хэрхэн цуглуулах, задлах

Хүсэлтийг ашиглан эхний хуудасны URL-г цуглуулах. Эхний хуудсын URL хувьсагч хуудсанд хуваарилагдах болно. Хүсэлтүүдээс BeautifulSoup объектыг бүтээж, Питтоны тайлбарлагчаас объектыг задлана уу.

Энэхүү гарын авлагад уран бүтээлчидийн нэр, холбоосыг цуглуулах зорилго оршино. Жишээ нь уран бүтээлчдийн он сар өдөр, үндэстэн ястаныг цуглуулж болно. Windows хэрэглэгчийн хувьд, зураачийн анхны нэр дээр дарна уу. Энэ тохиолдолд Zabaglia, Niccola ашиглана уу. Mac OS-ийн хэрэглэгчид, "CTRL" -г дараад нэр дээрээ дар. Вэб хөгжүүлэгчийн хэрэгслүүдэд хандахын тулд дэлгэц дээр гарч ирэх цонхон дээр гарч ирэх "Inspect Element" цэсийг дарна уу. Үзэсгэлэнт Соусыг гаргахын тулд уран зургуудын нэрийг хэвлэ.

Доод холбоосыг устгах

Доорх линкүүдээ вэб хуудсандаа устгахын тулд DOM-ийн баруун талд дарж DOM. Та холбоосууд нь HTML хүснэгтийн доор байгаа гэдгийг тодорхойлох болно. Үзэсгэлэнт шөлийг ашиглахдаа "задлах арга" -ыг ашиглан ялгах модноос хаягуудыг устгах хэрэгтэй.

Товчлуураас контентыг хэрхэн татах вэ

Та линкийг бүхэлд нь хэвлэх шаардлагагүй, Beautiful Soup ашиглан ашигла.Та мөн Beautiful Soup 4-ийг ашиглан уран бүтээлчидтэй холбоотой URL-уудыг авах боломжтой.

CSV файл руу хуссан өгөгдлийг авах

CSV файл нь өгөгдлийн хүснэгтэд ихэвчлэн хэрэглэгддэг форматтай цэвэр текстээр хадгалах боломжтой. Пайтон дахь энгийн текст файлыг боловсруулах талаар зөвлөгөө өгөхийг зөвлөж байна.

Вэбсайт мэдээллийг олборлох нь хуудсыг хусах болон мэдээлэл авахад ашиглагддаг. Та мэдээлэл авч байгаа вэбсайтуудын талаар анхаарч үзээрэй. Зарим динамик вэбсайтууд өөрсдийн сайт дээр вэбсайтыг олборлохыг хязгаарладаг. Beautiful Soup болон Python 3-тай хуудасыг устгахын тулд энэ хялбар юм.

December 22, 2017