Encontrando tesoros en la red: febrero 2016

sábado, 27 de febrero de 2016

Web superficial y profunda

La Web Superficial o visible

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:
 su información no está contenida en bases de datos
 es de libre acceso
 no se requiere la realización de un proceso de registro para acceder a la información.
 mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

La Web Profunda o invisible

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

 Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.
 Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
 Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).
 URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.

La Web privada consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:

 Las páginas están protegidas por contraseñas.
 Contienen un archivo “robots.txt” para evitar ser indizadas.
 Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página. Este segmento de la Web contiene, en general, documentos excluidos deliberadamente por su falta de utilidad. Ya que son los dueños de la información que contienen, los que deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera.

La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

La Web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Búsqueda avanzada

La búsqueda avanzada es un tipo de búsqueda que posee características adicionales soportadas por un motor de búsqueda o buscador. Suele ser una opción de elección libre en los buscadores, programas, herramientas y servicios online.
Una búsqueda simple generalmente consta de un cuadro de texto en el que se ingresa una cadena de caracteres, en cambio, las búsquedas avanzadas suelen contar con múltiples cuadros de texto, casillas de verificación y otros elementos incluidos habitualmente en los formularios. Por lo general, estos elementos permiten aplicar filtros a la búsqueda básica, para obtener resultados más exactos.

La Búsqueda avanzada de Google, ofrece numerosas opciones para realizar búsquedas con mayor precisión y obtener resultados más útiles.
Podemos acceder a ella a través de su URL http://www.google.es/advanced_search

Además de la introducción de términos en el campo de búsqueda, Google ofrece otras opciones, que nos permiten encontrar páginas que contengan:
- Todas las palabras que se mencionan
- Una frase exacta - Cualquiera de una serie de palabras
- Ninguna de las palabras que se mencionan
- Valores comprendidos en un determinado intervalo

Además, podemos restringir los resultados por: idioma, región, fecha de la actualización del artículo, podemos ingresar la URL de un sitio específico, dónde deben aparecer los términos que ingresamos (en el título, descripción o en cualquier parte de la página), los resultados más relevantes, el tipo de archivo (esto es muy útil ya que por ejemplo podemos seleccionar, documentos de texto, PDF, presentaciones multimedia, planillas de cálculo, entre otros) y finalmente por los derechos de uso del material.

La búsqueda avanzada de imágenes

Una de las opciones de las que dispone Google es la búsqueda de imágenes, tan solo tenemos que hacer clic sobre el vínculo Imágenes, automáticamente Google cambia la interfaz, escribiremos en el cuadro de búsqueda la palabra clave asociada a la imagen y pulsaremos sobre “Buscar imágenes”.

La búsqueda de imágenes de Google permite además de agregar términos en el cuadro de búsqueda, buscar por imagen es decir ingresar la URL de una imagen o subir un archivo de imagen desde nuestra computadora, eso nos permitirá encontrar la imagen u otras similares como puede verse en el ejemplo. La Búsqueda avanzada de imágenes de Google, también nos ofrece numerosas opciones para filtrar información y realizar búsquedas con mayor precisión: entre otras posibilidades seleccionar el tamaño, proporción, color, tipo de imagen, tipo de archivo entre otras posibilidades.

Buscar imágenes que puedas volver a utilizar: “Al hacer una búsqueda en la Búsqueda de Google, puedes filtrar los resultados para que aparezcan solo imágenes, vídeos o texto que puedas utilizar libremente. Para ello, debes utilizar el filtro de búsqueda avanzada "Derechos de uso”, que te permite saber cuándo puedes utilizar, compartir o modificar lo que encuentres en Internet”.

miércoles, 17 de febrero de 2016

Herramientas de búsqueda de información en Internet

Hay diferentes métodos de búsqueda de información y cada una funciona de una manera y tiene un propósito y un alcance concreto y propio.

Buscadores: Los buscadores o motores de búsqueda utilizan tipos de software especiales que localizan e indexan, en forma automática, las páginas Web y además todos los documentos referenciados en ellas.

Un buscador está compuesto por cuatro componentes básicos:
 un robot,
 un motor de indexación,
 los índices
 un motor de búsqueda.

El robot, también llamado spider, es un programa que se encarga de recorrer la Web obteniendo información relevante, de cada una de las páginas que visita. Una vez obtenida la información de la página, debe ser analizada y condensada, para su organización y su posterior presentación a los usuarios. Esta tarea la realiza el denominado motor de indexación.

La indexación puede efectuarse por palabras claves, que es la forma más común, o por conceptos. En el caso de hacerlo por palabras claves, algunos buscadores indexan todo el texto del documento, a excepción de los artículos, preposiciones y otros términos denominados “palabras vacías”. Otros motores de búsqueda se limitan a incluir en la indexación a las palabras que más se repiten, o priorizan los términos que se encuentran en el título, la URL, las cabeceras, los enlaces, los primeros párrafos y además, las palabras claves incluidas en las etiquetas o tags. Para facilitar la búsqueda, en la información recolectada, se utilizan estructuras de datos denominadas "índices o ficheros inversos", mediante los cuales se asocia una palabra a una lista de documentos relacionados con ella.

El motor de búsqueda es el encargado de procesar las consultas recibidas por los usuarios, para lo cual recorre los índices inversos buscando los términos relacionados con la consulta y obteniendo E los identificadores de los documentos. Finalmente los ordena jerárquicamente y presenta al usuario los resultados obtenidos. Este tipo de herramienta, realiza sus búsquedas en sus propios índices, no lo hace directamente sobre la Web. Esto implica, que los buscadores, solo pueden recuperar una muy pequeña parte de todo lo que realmente hay en Internet. Es importante señalar que los motores de búsqueda se diferencian entre sí por diferentes características como: el volumen y la frecuencia de indexación y el ordenamiento que hacen de la información encontrada para su presentación.

Algunos son: Google, Lycos, Bing...

Metabuscadores: son “buscadores en buscadores”, es decir, son servidores web que realizan búsquedas en los índices de un gran número de buscadores y/o directorios, eliminan las duplicaciones y nos presentan un resumen de los resultados obtenidos, ordenados por relevancia y, en algunos casos, nos indican cuál ha sido el buscador de origen de dicha información. Cada uno de los motores de búsqueda de los metabuscadores funciona de una manera distinta, aunque existe un proceso interno común a todos ellos.

Entre los mas importantes están: Metacrawler y Zoo.

Directorios: también denominados buscadores temáticos, organizan la información por medio de categorías y sub-categorías que registran las direcciones (URL) y una pequeña descripción de los diferentes sitios que han sido indexados. Son organizados en forma manual a partir del registro de sitios por parte de sus autores, y de un proceso posterior de selección y categorización jerarquizada por parte de los editores.

Los más importantes son: Yahoo, DMOZ, Portal SEO...

Guías: las guías temáticas están conformadas por páginas de recursos web organizadas por áreas del dominio de diversos especialistas y entidades académicas que asumen la tarea de elaborarlas. Por lo general incluyen algún mecanismo de búsqueda en sus páginas o en el sitio en general. Estos directorios anotados suelen ser de gran calidad ya que la selección de recursos, es muy cuidadosa y su actualización, frecuente.

Software especializado: Para mejorar las búsquedas en la Web puede utilizarse software especializado. Estos agentes auxiliares se instalan en nuestra PC y operan junto a los navegadores añadiéndoles ciertas funcionalidades, como el manejo de conceptos para la recuperación de la información. Un agente de búsqueda es un programa que, imitando el comportamiento de una persona y actuando de forma autónoma, recorre automáticamente internet aprovechando la estructura de enlaces de la web. Un agente de búsqueda puede recuperar un documento en particular, o utilizar algún algoritmo de búsqueda que permita recuperar distintos documentos de la web a los que se hace referencia en un documento fuente u origen, o conforme a unos criterios predefinidos anteriormente por sus usuarios.

Un agente de búsqueda puede realizar diversas funciones como:

- Realizar consultas con una velocidad y en un conjunto de fuentes mucho mayor que el posible para un usuario humano.
- Informar de las actualizaciones que se producen en los sitios web que son de interés.
- Agilizar las descargas que se realizan de internet.
- Eliminación de correo basura o spam
- Búsqueda de noticias conforme a las preferencias.

Created with Padlet

viernes, 5 de febrero de 2016

¿Qué es la infoxicación?

La "sobrecarga informativa" (information overload) es una expresión que acuñó Alvin Toffler en su libro "Future Shock" (1970) y hace referencia al estado de contar con demasiada información para tomar una decisión o permanecer informado sobre un determinado tema.
Ante una gran cantidad de información para analizar, o contradicciones en la información disponible, o no disponemos de un método para comparar y procesar diferentes tipos de información, estamos frente a una "infoxicación". Este último término, introducido por Alfons Cornella en 1996, refiere actualmente a la idea de que la sobrecarga de información que recibe un usuario, en especial de Internet en todas sus formas, puede causarle la sensación de no poder abarcarla ni gestionarla y, por tanto, llegar a generarle una gran angustia.

Este término, 'infoxicación,' surge de la unión de las palabras información e intoxicación.

Los problemas derivados de la sobreinformación pueden afectar nuestro rendimiento personal y profesional. Si prestamos demasiada atención a una gran cantidad de información de manera sostenida en el tiempo y no finalizamos una tarea para continuar con otra diferente, esto dificulta la desconexión de la mente, y la obliga a realizar un sobreesfuerzo.

Según Cornella, un objetivo final de todo esto sería tener un filtro personal de información; que la información a la que accedemos cada día pudiéramos dividirla literalmente en tres grandes partes: información fatal, que es aquella información que no nos interesa en absoluto porque no tiene nada que ver con los temas que tratamos; información interesante , que es aquella que, en algún momento puede interesarnos y aquella información que nos es realmente útil.

¡¡Reflexiona acerca de cómo nos informamos y qué métodos y herramientas utilizamos!!

Bienvenidos!

Bienvenidos al blog 'Encontrando tesoros en la red', espero ofrecerles información sobre los diferentes conceptos que se engloban en el mundo de internet y que les sirva de gran ayuda...

¡BIENVENIDOS!