Back to Question Center
0

Web Scraping: Good and Bad Bots - Semalt Тайлбар

1 answers:

Ботууд бүх вэб замын хөдөлгөөний бараг 55 хувийг эзэлдэг. Энэ нь таны вэбсайтын ихэнх нь хүнээс илүүтэй Internet bot-уудаас гарч ирдэг гэсэн үг юм. Бот бол тоон ертөнцөд автоматжуулсан үүргийг гүйцэтгэх програм хангамжийн програм юм. Ботууд нь ихэвчлэн давтагдсан ажлуудыг өндөр хурдаар гүйцэтгэдэг бөгөөд хүн төрөлхтөнд ихэвчлэн дургүй байдаг. Тэд өөрсдийгөө ихэвчлэн хайж олох, тухайлбал хайлтын системийн индексжүүлэлт, вэбсайтын эрүүл мэндийн мониторинг, хурдыг хэмжих, API-г идэвхжүүлэх, вэбийн агуулгыг татаж авах зэрэг жижиг ажлыг хариуцдаг - hosting usa reseller. Bots нь мөн аюулгүй байдлын аудитыг автоматжуулж, сайтуудаа эмх цэгцтэй олохын тулд тэдгээрийг даруй сэргээхэд ашигладаг.

Сайн болон муу хоёрын хоорондох ялгааг судлах:

Ботууд нь хоёр өөр ангилалтай хуваагдана. Сайн вебсайтууд таны сайт руу зочлон, хайлтын систем нь өөр өөр вэб хуудсыг мөлхөхөд тусалдаг. Жишээ нь, Googlebot Google-ийн үр дүнгүүдийн олон вэбсайтыг олшруулж, интернет дэх шинэ веб хуудсыг олоход тусалдаг. Аль блог, вэбсайтыг мөлхөж, олон тооны мөлхөх, хэр олон удаа индексжүүлсэнийг үнэлэх алгоритмийг ашигладаг. Муу bots нь вэбсайтыг хусах, тайлбар спам , болон DDoS халдлага зэрэг хортой үйлдлийг гүйцэтгэх үүрэгтэй. Тэд Интернетийн бүх замын 30 гаруй хувийг төлөөлдөг..Хакерууд муу толбыг гүйцэтгэж, олон төрлийн хортой үйлдлийг гүйцэтгэдэг. Тэд сая тэрбумаас хэдэн тэрбум вэб хуудас хайж, хууль бус агуулгыг хулгайлж, устгах зорилготой. Тэд мөн зурвасын өргөнийг хэрэглэж, вэбсайт болон мэдээллийн баазад нэвтрэх боломжтой ашиглаж болох залгаасууд болон програм хангамжуудыг байнга хайдаг.

Хорт утаа гэж юу вэ?

Ихэвчлэн хайлтын систем нь давтсан контент гэж хуссан контентыг хардаг. Энэ нь таны хайлтын системийн зэрэглэлд хортой бөгөөд таны хаягууд таны RSS руу нэвтрэх болон агуулгыг дахин хэвлүүлэх болно. Энэ аргаар тэд маш их мөнгө олдог. Харамсалтай нь, хайлтын систем муу цэгүүдийг арилгах ямар ч арга замыг хайгаагүй байна. Энэ нь таны агуулга тогтмол хуулагдаж, хуучирсан тохиолдолд таны сайтын зэрэглэл хэдхэн долоо хоногийн дотор гэмтдэг. Хайлтын системүүд нь давхардсан агуулгыг агуулдаг сайтуудыг шийддэг бөгөөд тэд ямар вэбсайтыг агуулгын агуулгыг нийтэд анхлан нийтэлдэг болохыг хүлээн зөвшөөрч чадахгүй.

Бүх вэбийг хусахгүй муу

Хаягдал нь үргэлж хор хөнөөлтэй, хортой биш гэдгийг хүлээн зөвшөөрөх ёстой. Өгөгдлийг аль болох олон хүнийг сурталчлахыг хүсч байвал вэбсайт эзэмшигчдэд ашигтай байдаг. Жишээлбэл, засгийн газрууд болон аялал жуулчлалын порталууд нь олон нийтэд хэрэгцээтэй мэдээллийг өгдөг. Энэ төрлийн өгөгдөл нь ихэвчлэн API-ууд дээр байдаг бөгөөд эдгээр мэдээллийг цуглуулахын тулд scrapers ашигладаг. Ямар ч гэсэн, энэ нь таны вэбсайтад хортой юм. Та энэ агуулгыг устгахдаа энэ нь таны онлайн бизнесийн нэр хүндийг гэмтээхгүй.

Жинхэнэ болон хууль ёсны хусах өөр нэг жишээ бол зочид буудлын захиалгын портал, концертын билетийн сайт, мэдээллийн самбар зэрэг нэгтгэсэн сайтууд юм. Эдгээр веб хуудсын агуулгыг түгээх үүрэгтэй вебсайтууд API-ээр дамжуулан өгөгдлөө аваад өөрийн зааврын дагуу хайлт хийнэ. Тэд замын хөдөлгөөнийг жолоодох, вэбмастер болон программистын мэдээллийг авах зорилготой.

December 14, 2017