Hilltop: la primera base de Google

Anoche leí el documento “Hilltop: A Search Engine based on Expert Documents”, el documento del que presuntamente se derivó la idea del PageRank del algoritmo primario de Google. El documento es obra de Krishna Bharat y George A. Mihaila y describía el funcionamiento de Hilltop, un motor de búsqueda basado en la evaluación de cuán experto es un documento.

El fragmento que yo creo que es más importante es este:

“We believe a page is an authority on the query topic if and only if some of the best experts on the query topic point to it. Of course in practice some expert pages may be experts on a broader or related topic. If so, only a subset of the hyperlinks on the expert page may be relevant.”

“In such cases the links being considered have to be carefully chosen to ensure that their qualifying text matches the query. By combining relevant out-links from many experts on the query topic we can find the pages that are most highly regarded by the community of pages related to the query topic. This is the basis of the high relevance that our algorithm delivers.”

Esto es la piedra angular de la evaluación de sitios por “autoridad”. Es decir, igual que ocurre en investigación científica, en que la autoridad de una obra científica viene determinada por el número de veces que ha sido citada en otras publicaciones científicas, el PageRank evalua las páginas por el número de links que han ganado en otras páginas.