Cum să găsiți pagini ascunse pe site-uri web

În 2016, Google a gestionat mai mult de 3200 de miliarde de interogări de căutare, totuși, rezultatele obținute de motorul de căutare au reprezentat doar o fracțiune din conținutul disponibil online. O mare parte din informațiile disponibile online nu sunt accesibile prin intermediul motoarelor de căutare, deci este necesar să folosiți instrumente speciale sau site-uri de cercetare pentru a găsi aceste pagini ascunse. Cunoscut sub numele de web adâncime, această informație ascunsă reprezintă până la 5000 de ori mai mult decât este disponibil prin tehnici de căutare tipice.

Tipuri de conținut ascuns

Paginile ascunse ale site-urilor web sunt împărțite în categorii care descriu de ce rămân invizibile pentru motoarele de căutare.

Unele reprezintă un conținut dinamic, care este prezentat numai atunci când un vizitator emite o cerere specifică pe un site web care utilizează un cod bazat pe o bază de date pentru a prezenta rezultate specifice. De exemplu, aceste pagini ar putea include rezultate de cumpărare bazate pe combinații specifice de criterii de produs. Motoarele de căutare nu sunt proiectate pentru a urmări și a stoca informații în aceste baze de date. Pentru a găsi aceste pagini, trebuie să mergeți la site și să căutați informațiile specifice pe care le căutați sau să utilizați un serviciu de căutare orientat către baze de date, cum ar fi Bright Planet .

Unele pagini nu au link-uri care le conectează la sursele de căutare. Resurse temporare, cum ar fi versiuni multiple ale site-urilor de subdezvoltare, pot fi incluse în această categorie, la fel ca și site-urile web prost dezvoltate. De exemplu, dacă cineva a creat o pagină web și a încărcat-o pe serverul de site-uri web, dar nu a adăugat o legătură la aceasta pe paginile curente ale site-ului, nimeni nu ar ști că există, inclusiv motoarele de căutare.

Încă mai multe pagini necesită acreditări de conectare pentru vizualizare sau acces, cum ar fi site-urile de abonare. Designerii web desemnează paginile și secțiunile site-urilor ca fiind în afara limitelor motoarelor de căutare, eliminând în mod eficient locația lor prin mijloace convenționale. Pentru a accesa aceste pagini, trebuie să creați un cont înainte de a vi se permite să le accesați.

Utilizând fișierele robots.txt

Motoarele de căutare accesează cu crawlere paginile unui site web și indexează conținutul lor astfel încât să poată apărea ca răspuns la interogări. Atunci când proprietarul unui site dorește să excludă anumite părți ale domeniului său din aceste proceduri de indexare, el adaugă adresele acestor directoare sau pagini într-un fișier text special numit robots.txt, stocat la radacina site-ului său. Deoarece majoritatea site-urilor web includ un fișier robot, indiferent dacă acestea adaugă sau nu excluderi, puteți utiliza numele previzibil al documentului pentru a afișa conținutul acestuia.

Dacă tastați "[nume de domeniu] /robots.txt" fără ghilimele din bara de adrese a browserului dvs. înlocuind adresa "site-ului" cu numele "[nume domeniu]", conținutul fișierului robot va apărea adesea în fereastra browserului după apăsarea tastei "Enter". Înregistrările precedate de "respinge" sau "nofollow" reprezintă părți din site care rămân inaccesibile prin intermediul unui motor de căutare.

Fă-te singur: hacking site-uri web

În plus față de fișierele robot.txt, puteți găsi adesea conținut ascuns introducând adrese web pentru anumite pagini și foldere în browserul dvs. Web. De exemplu, dacă v-ați uitat la site-ul unui artist și ați observat că fiecare pagină folosește aceeași convenție de numire - cum ar fi gallery1.html, gallery2.html, gallery4.html - atunci puteți găsi o galerie ascunsă prin tastarea paginii "gallery3.html "în browserul dvs. web.

În mod similar, dacă vedeți că site-ul folosește foldere pentru a organiza pagini - cum ar fi example.com/content/page1.html, cu "/ content" ca dosar, atunci este posibil să vedeți dosarul însuși prin tastarea pe site și, fără o pagină, cum ar fi "example.com/content/" în browserul dvs. Web. Dacă accesul la dosar nu a fost dezactivat, este posibil să navigați prin paginile pe care le conține, precum și prin paginile unui subdosar pentru a găsi conținut ascuns.

Acest articol a fost realizat cu ajutorul histillworks.com