Lo que la casa blanca no quiere que veas
He puesto un titular mas bien sensacionalista, pero en el fondo no es asi. Mas que "lo que la casa blanca no quiere que veas" es "lo que la casa blanca no quiere que los motores de busqueda de internet vean y guarden una copia" o "lo que la casa blanca no quiere que en un futuro se pueda demostrar que estaba alli". No me regañeis, si esto fuera un quiosco habría vendido muchos mas periodicos.
Todos conocemos la cache de google, una copia de las paginas web que indexa en su buscador. Esta cache es muy utilizada cuando algun medio borra una noticia o comunicado en el que mete la pata, podemos visitar la cache de google para ver que es lo que habia en esa web antes de que borrasen esa informacion "sensible".
Existe un fichero en los servidores web, robots.txt, que le dice a los buscadores lo que pueden y lo que no pueden indexar/copiar. Un blogero ha encontrado el de la casa blanca y lo puedes ver aqui.
En el fondo no es mas que un fichero de prohibiciones, yo creo que si hubiesen puesto *iraq* acababan antes.
via guerraeterna.
Todos conocemos la cache de google, una copia de las paginas web que indexa en su buscador. Esta cache es muy utilizada cuando algun medio borra una noticia o comunicado en el que mete la pata, podemos visitar la cache de google para ver que es lo que habia en esa web antes de que borrasen esa informacion "sensible".
Existe un fichero en los servidores web, robots.txt, que le dice a los buscadores lo que pueden y lo que no pueden indexar/copiar. Un blogero ha encontrado el de la casa blanca y lo puedes ver aqui.
En el fondo no es mas que un fichero de prohibiciones, yo creo que si hubiesen puesto *iraq* acababan antes.
via guerraeterna.
6 Comments:
No lo entiendo muy bien. El listado que ha encontrado el tío ese, ¿es de búsquedas que ha realizado la WaitJaus en google y que luego ha querido eliminar?
nou nou nou, es un listado de las cosas que witejaus quiere que sean invisibles para los buscadores en el caso de que existan alguna vez, que no se puedan encontrar por esos motores de busqueda ni copiar para las "caches".
Pero, ¿eso es legal? ¿No están manipulando el funcionamiento interno de google? ¿A google no le importa?
Pero, ¿eso es legal? ¿No están manipulando el funcionamiento interno de google?
Claro que es legal, internet funciona asi, si tu pones un servidor web y no quieres que ningun programa recolectador de paginas web haga una replica de lo que hay en tu servidor sin que tu te enteres, tienes derecho a que sea asi, igual que puedes prohibir el acceso a quien no quieras, poner contraseñas,etc.
El fichero robots.txt existe precisamente para eso, todos los servidores web tiene uno. Mirad por ejemplo el de la web de elmundo.es:
http://www.elmundo.es/robots.txt
o el de elpais.es
http://www.elpais.es/robots.txt
Como veis no hace falta ser un hacker ni nada de eso para leer el robots.txt de cualquier servidor web. Tienen que ser ficheros de acceso público para que los programas puedan leerlos y marcharse sin hacer nada...
Fijaos, hasta google tiene un robots.txt:
http://www.google.com/robots.txt
La verdad es que es una buena tecnica para investigar algo de un sitio web, descubres muchos directorios a los que se puede acceder, pero que por alguna razon, su dueño no quiere que sean indexados, por ejemplo con el de google viendo esto:
Disallow: /palm
significa que existe un directorio http://www.google.com/palm al que podemos acceder, y ademas, no quieren que sea indexado, por lo que mas ganas todavia de entrar xD
Publicar un comentario
<< Home