Was ist Phrase Rank?
Wird das System, das im neuen Googles Patent beschrieben ist, wird ein neuer sich aufreihender Algorithmus, um den vorhandenen PageRank zu vermehren?
PhraseRank
Vom allerersten Augenblick war Googles unterscheidendes Merkmal veranlasste Beliebtheitsrangordnung des Hypertext-Links. Algorithmen, Textinhalt verwendend, um Relevanz von Webdokumenten zu bewerten, spielten viel kleinere Rolle. Die Gründe zu dieser Verschiedenheit sind rein pragmatisch: Autoren von Webdokumenten haben Gesamtkontrolle über ihren Inhalt und sind an der Freiheit, es zu modifizieren, um sich aufreihende Algorithmen zu täuschen und höhere Positionen in Suchergebnissen zu bekommen. Hypertext-Links sind jedoch viel weniger unter Einfluss Webmaster und stellen ein zuverlässigeres Maß der Autorität (Verbindungsgewicht) und Relevanz (Verbindungsanker) zur Verfügung.
Jetzt führt Google einen neuen Weg ein, Relevanz eines Webdokumentes zu bewerten, das auf seinen Inhalt basiert ist, der sich bewähren könnte, um zu Manipulationsversuchen wie Anpassung der Schlüsselwort-Dichte oder der automatisierten Generation von am Schlüsselwort reichen Webseiten geschützt zu sein. Wirklich kann das neue System ein Heilmittel gegen MFA (Gemacht Für AdSense) Seiten werden, die sinnlosen ausrangierten am Schlüsselwort reichen Inhalt mit bezahlten Kontextanzeigen zeigen.
Das neue Indexieren und die Rangordnung des Systems beruhen auf dem Gebrauch von Ausdrücken. Von einem user Gesichtspunkt-Suchabfragen in den meisten Fällen sind Ausdrücke oder Konzepte, aber nicht Sätze von Schlüsselwörtern. Trotzdem verlassen sich herkömmliche Indexieren-Systeme noch auf individuelle Fristen. Das Indexieren von Ausdrücken wird vermieden, weil die Identifizierung aller möglichen Kombinationen von Wörtern riesig rechenbetont und Speichermittel verlangen würde. Zum Beispiel konnte ein Lexikon von 200.000 einzigartigen Wörtern ungefähr 3.2×1026 Ausdrücke ohne System haben, das fähig ist, um solch eine große Datenmenge im Gedächtnis zu versorgen oder effizient es zu manipulieren.
Dieses Problem wird im neuen System behoben, das Ausdrücke identifiziert, die genug häufig und in den gekrochenen Dokumenten ausgezeichnet sind. Ausdrücke entdeckend und anzeigend, dass sie valide das System sind, kann vielfache Wortausdrücke identifizieren. Das beseitigt das Bedürfnis, alle möglichen Kombinationen von Wörtern in Ausdrücken mit einem Inhaltsverzeichnis zu versehen, die sich in der Länge ändern.
Eine andere wichtige Eigenschaft ist die Fähigkeit von Ausdrücken, die Anwesenheit anderer Ausdrücke in einem webpage vorauszusagen. Zum Beispiel zeigt ein Ausdruck President des Vereinigten Staten an, dass das Dokument am wahrscheinlichsten den Ausdruck White House enthält. Für jeden Ausdruck schafft das System eine entsprechende Liste von zusammenhängenden gemäß ihrer Bedeutung bestellten Ausdrücken. Das ermöglicht dem System, spam auf das übermäßige Äußere von zusammenhängenden Ausdrücken basierte Seiten zu entdecken.
So wie arbeitet das System?
Das Indexieren
Der Prozess des Indexierens schließt Identifizierung von Ausdrücken und verwandten Ausdrücken ein. Das System analysiert die Folgen von Wörtern und kennzeichnet sie als Ausdrücke. Gute Ausdrücke sind diejenigen, die ganz oft über die mit einem Inhaltsverzeichnis versehenen Dokumente vorkommen oder ein ausgezeichnetes Äußeres haben, z.B werden durch Preiserhöhungsanhängsel, Zeichensetzung oder andere Anschreiber abgegrenzt. Ein anderes Unterscheidungsmerkmal ist die Fähigkeit eines Ausdruck, um einen zusammenhängenden Ausdruck solcher vorauszusagen, weil im obengenannten Beispiel President des Vereinigten States White House voraussagt. Einige Ausdrücke, zum Beispiel, Idiome neigen dazu, mit verschiedenen und Ausdrücken ohne Beziehung zu erscheinen, und sind nicht im Stande, irgendetwas vorauszusagen. Deshalb zählen Idiome und als gute Ausdrücke.
Am Ende des Indexieren-Prozesses erzeugt das System eine Liste von gültigen Ausdrücken zusammen mit einer Co-Ereignis-Matrix als ein prophetisches Maß. Eine geschätzte Größe der Liste ist 650.000 Ausdrücke.
Die Liste von guten Ausdrücken, oder Liste anschlagend, hat die folgende Struktur:
Ausdruck i: Liste: (Dokument d, [Liste: verwandte Ausdruck-Zählung] [verwandte Ausdruck-Information])
Für jeden Ausdruck ich gibt es eine Liste von Dokumenten d, mich enthaltend. Für jedes Dokument gibt es die Zahl von Ereignissen der Ausdrücke, die mit mir, und wenig Vektoren verbunden sind, der die Information über zusammenhängende Ausdrücke enthält.
Bit-Vektor besteht aus dem Paar von Bit. In jedem Paar zeigt der Wert 1 in der ersten Position an, dass ein zusammenhängender Ausdruck k im Dokument d da ist; sonst ist der Wert 0. Die zweite Position zeigt an, ob ein Ausdruck l verbunden mit dem Ausdruck k da ist. Die zusammenhängenden Ausdrücke l zusammenhängender Ausdrücke werden als zweite verwandte Ausdrücke von mir genannt. Bit-Vektor ist sehr wichtig, weil er verwendet wird, um Relevanz eines Dokumentes zu bestimmen, wenn die Suchergebnisse aufgereiht werden.
Beispiel von wenig Vektoren
Ausdruck i: Dokument d: [verwandte Ausdruck-Zählungen: {3,4,3,0,0,2,1,1,0}]
zusammenhängender Ausdruck-Bit-Vektor: = {11 11 10 00 00 10 10 10 01}
Für den Ausdruck ich gibt es 9 zusammenhängende Ausdrücke k. Sehen Sie jetzt den Bit-Vektoren an. Das erste Paar zeigt an, dass sowohl verwandter Ausdruck k1 als auch einer seiner zusammenhängenden Ausdrücke im Dokument da sind. Die vierten und fünften Paare zeigen, dass weder k4 und k5 noch ihre zusammenhängenden Ausdrücke gefunden werden, zeigt Das letzte Paar, dass, obwohl es kein Ereignis des Ausdrucks k9 einer seiner zusammenhängenden Ausdrücke gibt, da ist.
Für jeden Ausdruck i werden die Dokumente d im Neigen der Ordnung gemäß der Informationsgewinnungstyp-Kerbe sortiert, die ihnen in Bezug auf den gegebenen Ausdruck zugeteilt ist. Diese Vorrangordnung verbessert bedeutsam Leistung des Systems. Um sich aufreihende Kerbe zu berechnen, kann das System einen Verbindungsbeliebtheitsalgorithmus wie PageRank verwenden.
Suche
Das Suchsystem erhält eine Abfrage und identifiziert Ausdrücke darin. Einmal der Satz Q Anfragenausdrücke in geschaffen; das System bekommt dahineilende Listen für die Anfragenausdrücke in Listen von Q. Posting wieder werden durchgeschnitten, um zu bestimmen, welche Dokumente auf mehr als einer Liste erscheinen.
Ausdruck Basierte Dokumentenrangordnung
Dokumente können gemäß ihren Bit-Vektor-Werten aufgereiht werden. Ein Dokument, das die relevantesten Ausdrücke enthält, hat den höchsten Bit-Vektor-Wert und bekommt die höchste Rangordnung. Bemerken Sie, dass diese Annäherung die Information über zusammenhängende Ausdrücke verwendet, um Suchergebnisse aufzureihen, so können sogar Dokumente mit der niedrigen Frequenz des Anfragenausdrucks q hohe Rangordnungen bekommen, vorausgesetzt dass sie genug hohe Frequenz von zusammenhängenden Ausdrücken haben.
Für jeden Ausdruck schafft das Indexieren-System auch Listen von Dokumenten, in denen der gegebene Ausdruck ein Anker in eingehenden und ausgehenden Verbindungen ist. So die Ankererfolg-Kerbe für das Dokument kann d als eine Funktion der zusammenhängenden Ausdruck-Bit-Vektoren der Anfragenausdrücke Q berechnet werden, wo Q eine Ankerfrist in einem Dokument dieses Bezugsdokument d ist.
Das Ermitteln Spam Dokumente
Der neue Ausdruck basierte Annäherung ermöglicht dem zukünftigen Indexieren-System, spam Dokumente zu entdecken und zu bestrafen. Eine statistische Analyse der Dokumentensammlung zeigt, dass normalerweise eine Webseite 8 bis 20 zusammenhängende Ausdrücke enthält. Wie man erwartet, enthält ein spam Dokument, das ein Suchrangordnungssystem mit einer aufgeblähten Schlüsselwort-Dichte täuscht, eine übermäßige Zahl von zusammenhängenden Ausdrücken, wie 100 und mehr. Deshalb, Abweichungen von der erwarteten Zahl von zusammenhängenden Ausdrücken identifizierend, kann verwendet werden, um spam in Suchergebnissen zu entdecken und mit ihm zu kämpfen.
Dieses System kann auch angewandt werden, um sich zu identifizieren, automatisch erzeugter Inhalt hatte vor, zusammen mit bezahlten Kontextanzeigen gezeigt zu werden. Solche Sorte des Inhalts wird häufig in MFA (Gemacht für AdSense) Seiten verwendet und ist nichts anderes als eine sinnlose Folge von am Schlüsselwort reichen Textblöcken, die von anderen Websites, RSS Futter oder Suchmotorergebnis-Seiten ausrangiert sind. Obwohl die herkömmlichen Indexieren-Systeme bereits im Hindern diese Seiten ziemlich wirksam sind, sich in Suchergebnissen für populäre Fristen zu zeigen, können sie gelegentlich noch in Ergebnissen für Fristen des langen Schwanzes erscheinen.
Zusammenfassung
Das neue Indexieren und die Rangordnung des von Google vorgeschlagenen Systems verwenden Seiteninhalt (Ausdrücke), um sich aufzureihen, Suche läuft auf einen Weg hinaus, der zu Manipulationsversuchen hoch geschützt ist. Die Eigenschaften eines Webdokumentes pflegten, Dokumente, d. h. Ausdrücke und Beziehungen zwischen ihnen aufzureihen, sind unter Einfluss der Eigenschaften aller anderen Dokumente im Index, und sind deshalb außer der Kontrolle von Webmastern.
Der Ausdruck stützte Annäherung auch erhöht die Fähigkeit von Suchmotoren, unnatürliche Muster im Textinhalt wie aufgeblasene Schlüsselwort-Dichte zu entdecken, oder rangierte Inhalt aus. Es ermöglicht auch Suchmotor, aktueller eingestellte Ergebnisse zur Verfügung zu stellen, Dokumente pflückend, die vielfache Themen behandeln.
Die neue Annäherung kann als eine Zunahme zur vorhandenen basierten Verbindungsbeliebtheit verwendet werden, Systeme als ein zusätzlicher Parameter in der Schlussstand-Formel aufreihend. Verbindungsbeliebtheitswerte werden auch verwendet, um Dokumente in der Versetzung von Listen voraufzureihen, um die Leistung des Suchsystems zu verbessern.