Semalt - តើធ្វើដូចម្តេចដើម្បីកោសទំព័រគេហទំព័រ?

ស៊ុបដ៏ស្រស់ស្អាតគឺជាបណ្ណាល័យ Python ដែលត្រូវបានគេប្រើយ៉ាងទូលំទូលាយដើម្បីកោសគេហទំព័រដោយបង្កើតជាមែកធាងញែកចេញពីឯកសារ XML និង HTML ។ Web scraping ដែលជាបច្ចេកទេសនៃការស្រង់ទិន្នន័យចេញពីគេហទំព័រនិងទំព័រនានាត្រូវបានគេប្រើយ៉ាងទូលំទូលាយនៅក្នុងការវិភាគទិន្នន័យនិងផ្នែកគ្រប់គ្រង។ ក្នុងករណីភាគច្រើនភាសាសរសេរកម្មវិធី Python គឺជាតម្រូវការជាមុននៅក្នុងវិទ្យាសាស្ត្រទិន្នន័យ។

ពស់ថ្លាន់ ៣ មាន ឧបករណ៍ និងការបញ្ឈប់ដែលអ្នកអាចអនុវត្តចំពោះគម្រោងគ្រប់គ្រងទិន្នន័យរបស់អ្នក។ បច្ចុប្បន្នកំពុងដំណើរការជាស៊ុបដ៏ស្រស់ស្អាត ៤, ម៉ូឌុលនេះអាចប្រើបានជាមួយទាំង Python ៣ និង Python ២,៧ ។ ម៉ូឌុលស៊ុប ៤ ដ៏ស្រស់ស្អាតក៏មានសមត្ថភាពក្នុងការបង្កើតមែកធាងសេកសម្រាប់ស៊ុបស្លាកមិនបិទ។ នៅក្នុងការបង្រៀននេះអ្នកនឹងរៀនពីវិធីដើម្បីកាត់ទំព័រនិងសរសេរទិន្នន័យដែលបានកាត់ទៅឯកសារ CSV ។

ការចាប់ផ្តើម

ដើម្បីចាប់ផ្តើមសូមតំឡើងម៉ាស៊ីនមេឬបរិស្ថានកូដ Python ដែលមានមូលដ្ឋាននៅលើកុំព្យូទ័ររបស់អ្នក។ អ្នកក៏គួរតែតំឡើងម៉ូឌែលស៊ុបនិងសំណូមពរដ៏ស្រស់ស្អាតនៅលើម៉ាស៊ីនរបស់អ្នក។ ចំណេះដឹងក្នុងការធ្វើការជាមួយម៉ូឌុលទាំងពីរក៏ជាតម្រូវការចាំបាច់ផងដែរ។ ភាពស៊ាំជាមួយការដាក់ស្លាកនិងរចនាសម្ព័ន HTML ក៏ជាគុណប្រយោជន៍បន្ថែមផងដែរ។

ស្វែងយល់អំពីទិន្នន័យរបស់អ្នក

នៅក្នុងបរិបទនេះទិន្នន័យពិតពីវិចិត្រសាលសិល្បៈជាតិនឹងត្រូវបានប្រើដើម្បីជួយអ្នកឱ្យយល់ពីរបៀបប្រើស៊ុបស្រស់ស្អាត ៤. វិចិត្រសាលសិល្បៈជាតិមានចំនួន ១២០ ០០០ បំណែកដែលត្រូវបានធ្វើដោយសិល្បករប្រមាណ ១៣.០០០ នាក់។ សិល្បៈមានមូលដ្ឋាននៅទីក្រុងវ៉ាស៊ីនតោនឌីស៊ីសហរដ្ឋអាមេរិក។

ការទាញយកទិន្នន័យតាមគេហទំព័រជាមួយស៊ុបស៊ុបមិនមានភាពស្មុគស្មាញទេ។ ឧទាហរណ៍ប្រសិនបើអ្នកផ្តោតលើអក្សរ Z សូមគូសចំណាំនិងកត់សំគាល់ឈ្មោះទីមួយនៅក្នុងបញ្ជី។ ក្នុងករណីនេះឈ្មោះទីមួយគឺហ្សាបហ្គាឡីនីកាកូឡា។ ដើម្បីភាពស្ថិតស្ថេរចង្អុលបង្ហាញចំនួនទំព័រនិងឈ្មោះរបស់វិចិត្រករចុងក្រោយនៅលើទំព័រនោះ។

វិធីនាំចូលសំណើរនិងបណ្ណាល័យស៊ុបស្រស់ស្អាត

ដើម្បីនាំចូលបណ្ណាល័យសូមធ្វើឱ្យសកម្មបរិយាកាសសរសេរកម្មវិធី Python 3 របស់អ្នក។ ពិនិត្យមើលដើម្បីឱ្យប្រាកដថាអ្នកស្ថិតនៅក្នុងថតតែមួយជាមួយបរិយាកាសសរសេរកម្មវិធីរបស់អ្នក។ ដំណើរការពាក្យបញ្ជាខាងក្រោមដើម្បីចាប់ផ្តើម។ my_env / bin / ធ្វើឱ្យសកម្ម។

បង្កើតឯកសារថ្មីហើយចាប់ផ្តើមនាំចូលបណ្ណាល័យស៊ុបនិងសំណូមពរដ៏ស្រស់ស្អាត។ បណ្ណាល័យស្នើសុំនឹងអនុញ្ញាតឱ្យអ្នកប្រើ HTTP នៅក្នុងកម្មវិធី Python របស់អ្នកជាទ្រង់ទ្រាយដែលអាចអានបាន។ ម៉្យាងទៀតស៊ុបស្រស់ស្អាតធ្វើការដើម្បីកោសទំព័រយ៉ាងឆាប់រហ័ស។ ប្រើ bs4 ដើម្បីនាំចូលស៊ុបស្រស់។

វិធីប្រមូលនិងញែកទំព័រគេហទំព័រ

ការប្រើប្រាស់សំណើប្រមូល URL នៃទំព័រដំបូងរបស់អ្នក។ URL នៃទំព័រដំបូងនឹងត្រូវបានកំណត់ទៅទំព័រអថេរ។ បង្កើតវត្ថុ BeautifulSoup ពីសំណូមពរនិងញែកវត្ថុពីសេករបស់ Python ។

នៅក្នុងឯកសារបង្រៀននេះគោលបំណងគឺដើម្បីប្រមូលបណ្តាញភ្ជាប់និងឈ្មោះរបស់សិល្បករ។ ឧទាហរណ៍អ្នកអាចប្រមូលកាលបរិច្ឆេទនិងសញ្ជាតិរបស់សិល្បករ។ សម្រាប់អ្នកប្រើវីនដូសូមចុចខាងស្តាំលើឈ្មោះដំបូងរបស់សិល្បករ។ ក្នុងករណីនេះសូមប្រើ Zabaglia, Niccola ។ សម្រាប់អ្នកប្រើប្រាស់ Mac OS សូមប៉ះលើ "CTRL" ហើយចុចលើឈ្មោះ។ ចុចលើ "អធិការកិច្ចធាតុ" ដែលលេចឡើងនៅលើអេក្រង់របស់អ្នកដើម្បីចូលប្រើឧបករណ៍របស់អ្នកអភិវឌ្ឍន៍គេហទំព័រ។ បោះពុម្ពឈ្មោះរបស់វិចិត្រករចេញដើម្បីធ្វើឱ្យស៊ុបស៊ុបស្រស់កាត់ដើមឈើយ៉ាងលឿន។

ការដោះតំណខាងក្រោម

ដើម្បីលុបតំណខាងក្រោមនៅលើគេហទំព័ររបស់អ្នកពិនិត្យមើល DOM ដោយចុចខាងស្តាំលើធាតុ។ អ្នកនឹងដឹងថាតំណភ្ជាប់ស្ថិតនៅក្រោមតារាង HTML ។ ដោយប្រើស៊ុបស្រស់ស្អាតប្រើវិធីសាស្រ្តរលួយដើម្បីយកស្លាកចេញពីមែកឈើ។

វិធីទាញមាតិកាពីស្លាក

អ្នកមិនចាំបាច់បោះពុម្ពស្លាកតំណទាំងមូលទេប្រើស៊ុបស្រស់ដើម្បីយកសម្ភារៈចេញពីស្លាក។ អ្នកក៏អាចចាប់យក URL ដែលទាក់ទងនឹងសិល្បករដោយប្រើស៊ុបស្រស់ស្អាត ៤ ។

ការចាប់យកទិន្នន័យដែលបានកាត់ទៅឯកសារ CSV

ឯកសារ CSV នឹងអនុញ្ញាតឱ្យអ្នករក្សាទុកទិន្នន័យដែលមានរចនាសម្ព័ន្ធនៅក្នុងអត្ថបទធម្មតាដែលជាទ្រង់ទ្រាយដែលភាគច្រើនត្រូវបានប្រើសម្រាប់សំណុំទិន្នន័យ។ ត្រូវបានណែនាំឱ្យមានចំណេះដឹងស្តីពីការដោះស្រាយឯកសារអត្ថបទធម្មតានៅក្នុង Python ។

ការទាញយកទិន្នន័យគេហទំព័រត្រូវបានប្រើដើម្បីកោសទំព័រនិងទទួលបានព័ត៌មាន។ សូមពិចារណាគេហទំព័រដែលអ្នកកំពុងទាញយកព័ត៌មានពី។ គេហទំព័រវៃឆ្លាតមួយចំនួនដាក់កម្រិតលើការទាញយកទិន្នន័យគេហទំព័រនៅលើគេហទំព័ររបស់ពួកគេ។ ដើម្បីកោសទំព័រជាមួយស៊ុបស៊ុបនិងពស់ថ្លាន់ ៣ គឺសាមញ្ញណាស់។