Le Web est essentiellement inorganisé, et les informations sur ses pages sont de qualité très différente, telles que des informations commerciales, des bases de données nationales, des collections de guides d’étude et des sélections de documents individuels. Les moteurs de recherche comme Google tentent de déterminer les pages Web fiables en les pondérant ou en les classant en fonction de la quantité d’autres pages qui y font référence, en déterminant les « autorités » que de nombreuses pages recommandent, et également en identifiant les « hubs » qui font référence à de nombreuses pages. . Ces méthodes peuvent bien fonctionner, mais le consommateur doit néanmoins faire preuve d’habileté pour choisir des mélanges appropriés d’expressions de recherche. La recherche d’une institution financière peut renvoyer d’innombrables millions de pages Web (« appels »), dont beaucoup proviennent de banques commerciales. La recherche de river bank peut néanmoins revenir sur plus de 10 millions de pages, dont beaucoup proviennent d’institutions bancaires avec un flux dans le titre. Seules des améliorations supplémentaires telles que les rives de la rivière et les zones riveraines réduisent le nombre de visites à des milliers et des milliers de pages, dont les plus notables émettent des rivières et leurs institutions bancaires. Les moteurs de recherche comme Google utilisent des robots d’exploration, des programmes qui explorent Internet en suivant des liens hypertextes d’une page Web à l’autre, enregistrant tout sur la page Web (appelée mise en cache) ou des zones d’une page Web, ainsi qu’un moyen exclusif d’étiqueter le contenu pouvoir développer des indices pondérés. Les sites Web incluent fréquemment leurs propres balises sur les pages Web, qui ne sont généralement remarquées que par les robots d’exploration, afin d’améliorer la correspondance entre les recherches et leurs sites Web. Les abus de cet étiquetage volontaire peuvent fausser les résultats des moteurs de recherche autrement pris en considération lors de la conception des moteurs de recherche. De même, un utilisateur doit savoir si un moteur de recherche Internet particulier met aux enchères des mots-clés, en particulier si les sites Web qui ont payé pour un placement préférentiel ne sont généralement pas indiqués individuellement. Même les moteurs de recherche de base les plus complets comme Google, tels que Google, Google !, Baidu et Bing, ne sont pas en mesure de suivre la prolifération des pages Web, et chacun laisse simplement de grandes portions à découvert. lien de site Web, un lien Web entre des éléments de détails liés par des connexions numériques pour permettre à une personne d’accéder facilement entre les deux. L’hypertexte, un lien hypertexte concernant le texte, est une fonctionnalité de certaines applications qui permettent à l’utilisateur de médias de masse électroniques de sélectionner n’importe quoi dans le contenu textuel et d’obtenir plus d’informations concernant ce mot, comme une définition ou des recommandations connexes dans le texte. Dans l’article « baleine » d’une encyclopédie électronique, par exemple, un hyperlien hypertexte à la mention de la baleine bleu clair permet au lecteur d’accéder au contenu de cette variété en cliquant simplement sur les mots « baleine bleue » muni d’une souris d’ordinateur. Le lien vers le site Web est généralement indiqué en présentant le mot ou l’expression approprié dans un texte ayant une police ou une couleur différente. Les backlinks peuvent également lier du texte à des photos, des sons ou des séquences de dessins animés. Les hyperliens entre différentes parties d’un enregistrement ou entre divers documents créent une structure de ramification ou de système qui peut prendre en charge des sauts directs et sans intermédiaire vers des éléments de détails connexes. Le cadre arborescent de détails hyperliés contraste avec la structure linéaire de l’encyclopédie imprimée ou du thésaurus, par exemple, dont les éléments ne sont physiquement accessibles qu’au moyen d’une série fixe et linéaire d’entrées classées par ordre alphabétique. Les backlinks sont, en quelque sorte, des recommandations transversales qui paient pour un accès instantané à leurs détails cibles. De tels liens sont plus avantageux lorsqu’ils sont appliqués à une grande variété de détails qui sont structurés en de nombreux éléments connexes de plus petite taille, donc lorsqu’un individu n’a besoin que d’une petite partie de détails à la fois. Les backlinks ont été utilisés le plus efficacement par les sites Internet sur Internet. Pour accueillir cette masse d’informations sans précédent, les moteurs de recherche ont construit 11 centres de données dans le monde, chacun d’eux contenant plusieurs centaines de milliers de serveurs Web (essentiellement des ordinateurs personnels multiprocesseurs et des disques durs montés dans des racks spécialement construits). Les systèmes informatiques interconnectés de Google s’élèvent probablement à plusieurs millions. Le cœur du fonctionnement de Google, néanmoins, est constitué de trois morceaux de code informatique exclusifs : les moteurs de recherche Document Program (GFS), Bigtable et MapReduce. GFS gère le stockage des informations en « morceaux » sur plusieurs machines ; Bigtable est définitivement le système de base de données de l’entreprise ; et MapReduce est utilisé par les moteurs de recherche pour générer des données de plus haut niveau (par exemple, constituer un index de pages Web contenant le texte « Chicago », « théâtre » et « participatif »).
A quoi sert un moteur de recherche
Categories: