• Administro la red informática de una empresa con Windows
  • Soy wembaster de más de 20 páginas web
  • Hago una tesis doctoral en ingeniería con Linux
  • Estudié Física e Ingeniería
  • Me gusta la seguridad informática y hacer de hacker

Google blogger: algoritmo para buscar blogs y webs. Primera posición en busquedas

¿Cómo conseguí tener los dos únicos blogs selecconados por Google y Blogger sobre "El Código da Vinci" la semana del estreno de la película?

A principios de enero me di cuenta de que iba a estar de moda El Código da Vinci en mayo, cuando se estrenase la película.

Me propuse tener para mayo dos blogs entre los "Principales blogs que concuerdan con codigo da vinci" de Blogger o "Blogs relacionados:" de Google.

Lo conseguí. Y no sólo eso; además de estar seleccionados, mis dos blogs fueron los únicos que estuvieron seleccionados la semana posterior al estreno de la película (ahora han aparecido más).

Mis dos blogs son:
El Código da Vinci: secretos y hechos ocultos: Con este blog sigo el número 1, tanto en Google como en Blogger, al buscar "codigo da vinci"
El Código da Vinci y el Opus Dei


¿Cómo lo hice?
Para responder esta pregunta primero hay que responder a otras:

¿Cómo funciona Blogger? ¿Cuál es su funcionamiento? ¿Cómo es el algoritmo de Google? ¿Cómo se puede calcular el page rank? ¿cómo librarse de las penalizaciones de Google o páginas baneadas?... y la más interesante ¿Cómo ser el número 1 en Google?
Intentaré responder estas preguntas poco a poco.
Gran parte de lo que voy a decir en este texto no está publicado en ningún sitio: es el resultado de nueve meses de estudio, experimentación y observación (tengo varias páginas baneadas por google).

Ideas básicas:
- Para ordenar las páginas al hacer búsquedas, google tiene un algoritmo secreto. Con este algoritmo cada página obtiene una "puntuación", que sirve para ordenarla en cada búsqueda. El algoritmo es secreto y varía, pero dentro de unos parámetros. Este algoritmo depende fundamentalmente de tres variables:
1) el Page Rank de google
2) el contenido de la página o indexación
3) la información externa o parámetros externos


1) Page Rank: Cada página tiene una puntuación fija de page rank (que va de 1 a 10). El cálculo del page rank está publicado y vale:

Page_Rank = sumatorio(Page_Rank_I/Enlaces_SalientesI)

Donde:
Sumatorio quiere decir que hay un sumando para cada uno de los enlaces que recibe tu página desde otras páginas.
PageRank_I es el Page Rank de una de las páginas que te enlazan (vale de 0 a 10).
Enlaces_Salientes_I es el número de enlaces o links que tiene la página que te pone un enlace hacia otras. Si esa tiene sólo 20 links y tiene uno hacia la tuya, ese enlace "da más puntos" que si tiene 50.000 enlaces, como es el caso de los directorios de internet.

- El robot de Google (Googlebot) va repasando todas las páginas de internet periódicamente. Repasa cada página una vez cada 2 o 3 meses. Cada vez que repasa una página va cambiando el page rank de las demás, porque encuentra los vínculos que han aparecido desde la última revisión.
La última imagen de una página que tiene google se puede ver al buscar la página y hacer clic sobre "en cache".
Los blogs se repasan con más frecuencia (cada mes). Además, si tienes un blog en blogger, cuando publicas una entrada, blogger la registra y ya la puede encontrar en las búsquedas. No obstante, normalmente tarda un tiempo en mostrarla en las búsquedas (puede oscilar entre 1 y 12 horas).
Esto causa que, para poder subir en google hayan de pasar unos meses: al menos 7 u 8.

2) Indexación en función de las palabras que contiene una página: puntuación variable en función de la expresión que se haya buscado y el contenido de la página; a esta segunda puntuación podemos llamarla indexación.
Google no funciona como el buscador de windows, que muestra los archivos que contienen una palabra sin orden (los muestra en una lista a medida que los encuentra). En lugar de esto, google que los ordena en función de cuántas veces aparece la palabra y dónde aparece (vale más si aparece en un hipervínculo o en negrita, por ejemplo).
El valor de la indexación tampoco es muy complicado de calcular: muchos servidores tienen el famoso servicio de Index Server de Windows. Este servicio revisa todos los archivos del disco duro, o de unas carpetas determinadas y permite realizar búsquedas. Pero no son búsquedas como las del buscador de Windows, sino que los resultados aparecen ordenados. El funcionamiento y el código de este servicio de Index Server son públicos y muy similares al servicio de indexación de Google (googlebot).
Las únicas diferencias importantes entre el Microsoft Index Server y el Google Index Server son:
- A diferencia del de Windows, el servicio de indexación de Google tiene en cuenta la url (la dirección de la página: www.direccion.com). Si aparece "codigo da vinci" en la url tienes "más puntos" que si no aparece.
(En todo este artículo supondré que el objetivo es aparecer en las primeras posiciones al buscar "codigo da vinci", como me propuse yo).
- También tiene en cuenta googlebot los hipervínculos: las palabras que aparecen en links tienen más valor que las que aparecen en texto normal.
- En el Index Server de Windows, cuantas más veces se pone una palabra, más arriba sale en la búsqueda. Si google funcionase así, cualquiera podría aparecer el pirmero en google: bastaría con poner la expresión deseada un millón de veces en la página. Como google no es tonto penaliza o banea las páginas que intentan engañarle de este modo.
-Título del blog o de la página (no se contempla en el código del Index Server de Microsoft): la regla número 1 de google es que, para quedar bien posicionado al buscar una palabra o expresión, tiene que aparecer esta expresión en el título. Si aparece al principio del título es mejor. Y si el título sólo contiene esa expresión es mejor todavía. Porque tienen más valor las palabras del principio del título y, además, tienen más peso cuantas menos palabras haya en el título (si es un título de 10 palabras, se reparten "los puntos" entre todas, y tocan a menos "puntos" que si sólo hay 4 palabras en el título). El valor, de cara al servicio de Indexado de Googlebot, de una palabra en el título es de 10 a 20 veces mayor que el valor que tendría fuera del título (en el cuerpo de la página: entre las etiquetas htm y ).

- Penalización de url o baneo de Google: la penalización consiste en que una página no aparece en google (ni siquiera entre las 200 primeras) al realizar la búsqueda en la que esa página quería aparecer bien.
Pondré un ejemplo aclaratorio que me ha sucedido, pero cambiando las palabras clave de la búsqueda, para evitar problemas con google. El ejemplo no tiene que ver con "codigo da vinci". Es otra historia: recuerdo que soy webmaster de más de 30 páginas web de temas variados (informática, cine, literatura, ocio, religión, etc.).
Vayamos con el ejemplo: tengo un blog que quiero que salga el primero en dos búsquedas distintas "coche" y "carreras". Por supuesto que también quiero que salga el primero en "coche de carreras". Para conseguirlo, en mi página hablo mucho de coches y de carreras. Además, para que salga muy bien situada al buscar "coche" pongo esa palabra muchas veces. En mi caso puse la palabra "coche" -más bien la palabra a la que ésta sustituye- en la columna lateral del blog muchas veces y dentro de hipervínculos. Así, el nombre de las secciones del blog (que aparecen permanentemente en la columna izquierda) era:
coche: motor
coche: carreras
coche: gasolina
coche: mantenimiento
etc.

Con esto conseguí un baneo en google al buscar "coche". Es decir, cuando buscas "coche" en google no aparezco. Cuando buscas "carreras" aparezco el número 1 (aunque es muy complicado para un blog aparecer el primero en búsquedas en www.google.com). Y cuando buscas "coche carreras" tampoco aparezco, porque estoy baneado para "coche". Si aparece esta palabra maldita mi blog desaparece (recuerdo que "coche" y "carreras" son dos palabras de ejemplo, que sustituyen a otras dos palabras relacionadas entre sí: para una de ellas uno de mis blogs sale el 1º en www.google.com, y para la otra ni aparece por el baneo).

- Diferencias de búsqueda entre blogger y google: los mecanismos de búsqueda de ambos buscadores son diferentes. El de blogger sólo muestra resultados de blogs, y el de google los muestra de blogs y todo tipo de páginas (por ello es muy difícil que un blog aparezca bien situado en la "búsquda absoluta"). Esto lo he comprobado porque el blog que tengo baneado para la búsqueda "coche" en google, aparece el segundo de los cinco blogs seleccionados para al buscar "coche" en blogger. A las búsquedas de blogger también se puede acceder desde google pulsando "más>>" y luego "búsqueda en blogs".

- Saltarse las penalizaciones de Google: la penalización va hacia una url (siguiendo con el ejemplo, la url podría ser: http://cochesdecarreras.blogspot.com). Y sólo se penaliza esta url. La solución a este problema es copiar todo el texto del blog en otro blog con otra url diferente, y evitar que aparezca demasiadas veces la palabra "coches". Se puede sustituir por un sinónimo como "automóvil". Esto es lo que yo hice hace unos días: dentro de 9 meses comprobaréis como funciona.

3) Información externa o parámetros externos: otra de las fuentes de "puntos" para el algoritmo secreto es la conducta de los usuarios que buscan en google. Uno de los primeros principios que tiene google es que los usuarios encuentren lo que buscan. Para ello, guarda información sobre dónde pulsan los usuarios al hacer una búsqueda. Por ejemplo, si alguien busca "coche" y hace clic en la tercera página que aparece y no en las dos primeras, entonces la tercera recibe "puntos". Googlebot "se da cuenta" de que su algoritmo falla, porque ese usuario no buscaba la primera, ni la segunda página, sino la tercera. Esto ha de reflejarlo de alguna forma y es rellenando esta tercera variable.
En el último mes uno de mis blogs ha experimentado un fuerte ascenso en una búsqueda. Ha empezado a tomar buenas posiciones en una búsqueda que yo no esperaba. El caso es como el que sigue, pero cambiando las palabras: supongamos que tengo un blog sobre el Real Madrid y aparece muy bien posicionado en la búsqueda realmadrid (pongamos que aparece el nº 19). Las páginas que aparecen entre los 10 primeros tienen todas realmadrid en su url (y esta es la causa de su aparición allí). Yo quiero subir posiciones y esto es lo que hice:
- Entrar en el blog varias veces cada día buscando realmadrid. Esto tiene su emoción, porque si realizas muchas veces esta opreración desde la misma ip (desde el mismo ordenador), se cuenta sólo como una, para que una persona no pueda desequilibrar el sistema de google. Pero yo encontré una solución: trabajo de administrador de la red informática de una gran empresa multinacional, de la que dependen muchas pequeñas empresas, asociaciones, sucursales, etc. (sólo en Madrid hay más de 100). Como he tenido que ir a varias de ellas últimamente, para resolver problemas informáticos, he estado en muchos ordenadores diferentes. Lo primero que hago al llegar a un ordenador es hacer la búsqueda realmadrid (más bien la palabra a la que esta sustituye), y entrar en mi página.
- Poner esta palabra (realmadrid) muchas veces en mi blog. Como casi ninguna páigina la tiene, salvo las erratas, los "puntos" que obtengo por indexación son mucho mayores que los demás competidores. Pongo la palabra como si fuese una errata: RealMadrid (como si se me hubiese olvidado el espacio).
Con estos dos trucos he subido desde la 19 hasta la 6 de google en un mes, para la palabra realmadrid.

CONJETURAS SOBRE EL ALGORITMO DE GOOGLE:
Con lo relatado anteriormente y con un nuevo ejemplo, conjeturo el esquema de funcionamiento de google. Lo que diré a continuación ha de tomarse como meras hipótesis, pero son hipótesis que no han encontrado ningún ejemplo que las contradiga. Aunque esto no quiere decir que no lo vayan a encontrar mañana (esto recuerda a las discusiones sostenidas entre los partidarios de Karl Popper y los de Thomas Khun, sobre la "asimetría lógica entre verificación y falsación en las teorías Físicas". Siento estos excursus de Física: es una deformación profesional que tengo).
Mi hipótesis es que el algoritmo de google es el siguiente:


palabra buscada > indexación (Ix) y parámetros externos (PEx) > page rank (PR) > puntuación (Pt) > orden

La explicación de este esquema de flujo es: la palabra buscada es el imput del programa. Este imput produce, para cada página web, unos valores numéricos de indexación (IX) y parámetros externos (PEx). Además, cada página tiene su Page Rank (PR). Con estos tres sumandos se obtiene una puntuación (Pt), que ordena las páginas.

Postulo que la puntuación es:

Pt = a*Ix + b*PEx + c*PR


Donde a, b y c son valores que oscilan aleatoriamente en los siguientes intervalos.
a (4,6)
b (4,6)
c (8,10)
Es decir, a y b oscilan entre 4 y 6; mientras que c oscila entre 8 y 10.

Los valores medios serían: Pt = 5*Ix + 5*PEx + 9*PR

El valor de PR está publicado, el de Ix es similar al de Index Server. Sólo queda el de PEX: supongo que este valor recibe una "puntuación" cada vez que alguien hace clic sobre la página al buscar en google. La puntuación será mayor cuanto más alta sea la posición de la página (si alguien hace clic sobre la nº 1, esta recibe menos puntos que si se hace sobre la 8).

Puede parecer chochante el peso tan grande que tiene el page rank, pero no lo es tanto. Esto se aclara al estudiar el caso de Wikipedia. Esta enciclopedia aparece ente las 10 primeras en muchas de las búsquedas que se realizan. Su valor de IX (determinado por el texto de la página) no es muy grande, puesto que tiene sólo una página sobre cada tema. No obstante, su PR es alto. Esto no requiere explicación, porque es linkada por cientos de páginas. Pero más alto aún es su PEx, porque Wikipedia es un sitio de confianza: cuando alguien ve en una búsqueda que aparece en 4ª posición un resultado de Wikipedia, es bastante probable que la pulse saltándose las tres anteriores.

- Posibilidad de engaños en google: con una línea de código incluída en el programa de búsquedas, google podría hacer trampa. Esto es lo que hace con las páginas baneadas o penalizadas: tiene un "if" en el programa que hace que no se muestren las páginas incluidas en una determinada lista. Del mismo modo que puede hacer que no aparezcan páginas, también podría hacer que aparezca como nº 1 una página que haya pagado más que las otras.
Con una sóla línea de código se podría hacer esto. Todo el mundo podría ser manipulado con sólo introducir una línea más en un archivo de texto.



- Reglas específicas de blogger
Las reglas anteriores eran comúnes para blogger y google. Pero blogger tiene algunas reglas específicas:
- Para que un blog aparezca seleccionado tiene que llevar un mínimo de tiempo publicando: por este motivo empecé con los blogs en febrero (pensando en tenerlos seleccionados en mayo).

- Título del post: las palabras que aparecen en el título del post son las más importantes a la hora de buscar una página. El título del post tiene una importancia aproximada del 70 % a la hora de posicionarlo. Si te interesa aparecer en las primeras posiciones al buscar una palabra o expresión (en mi caso "codigo da vinci"), es imprescindible que "codigo da vinci" en el título del post. Si te interesa ser un blog seleccionado para "codigo da vinci", esa expresión ha de aparecer en el título de muchos de los posts que escribas (como mínimo del 25 %).

Comments on "Google blogger: algoritmo para buscar blogs y webs. Primera posición en busquedas"

 

Blogger Valsrock said ... (2.3.07) : 

Hola, tu post es muy bueno, he venido buscando como hacer para que mis blogs aparezcan en google y de hecho q esta info me sirve bastante, ademas ahya informacion muy valiosa en tu web, gracias por todo

 

post a comment

Links to "Google blogger: algoritmo para buscar blogs y webs. Primera posición en busquedas"

Create a Link