Skip to content
Snippets Groups Projects
Commit c417f773 authored by Jonas Schreiner's avatar Jonas Schreiner
Browse files

HITS

parent ecaeb2c3
No related branches found
No related tags found
No related merge requests found
#! /usr/bin/sh
latexmk -pdf -pvc lecture_notes.tex
......@@ -25,116 +25,118 @@ Problem: wie misst man \emph{Autorit"at} ($\to$ \glqq messen von Emergenz \grqq
\item Die Seite mit h"ochster Autorit"at muss nicht einmal die Suchw"orter enthalten (z.B. www.audi.de und
\glqq Automobilhersteller\grqq)
\end{itemize}
Die Link-Struktur auswerten! Sie enth"alt menschliche Bewertungen \\
Achtung:
Zur textbasierten Suche zus"atzlich: Die Auswertung der Linkstruktur, sie enth"alt menschliche Bewertungen. \\
\emph{Achtung:}
\begin{itemize}
\item[+] Navigationslinks sollten nichts beitragen
\item[+] Werbung??
\setlength\itemsep{0.1em}
\item[-] Navigationslinks sollten nichts beitragen
\item[-] Werbung?
\end{itemize}
\paragraph{Erste Heuristik}
\begin{addmargin}{0.5cm}
Gib von allen Seiten, die den Suchstring enthalten, die aus, auf die am h"aufigsten gezeigt wird.
Probleme:
\begin{itemize}
\item[$\to$] audi.de--Problematik
\item[$\to$] popul"are Seiten, die h"aufig verlinkt, werden zu Autorit"aten f"ur alles
\end{itemize}
\end{addmargin}
Hier jetzt: es gibt \underline{Autorit"aten} und die, die sie kennen. (Autorit"aten f"ur Autorit"aten, \underline{Hubs}
Gib allen Seiten, die den Suchstring $\sigma$ enthalten aus, und die, auf die am h"aufigsten gezeigt wird, als erste.
\emph{Probleme:}
\begin{itemize}
\setlength\itemsep{0.1em}
\item[$\to$] popul"are Seiten, die h"aufig verlinkt, werden zu Autorit"aten zu allen Themen
\item[$\to$] \glqq gute \grqq Seiten brauchen $\sigma$ ja gar nicht zu enthalten (audi.de--Problematik)
\end{itemize}
Hier f"ur uns: es gibt \underline{Autorit"aten} und die, die sie kennen. (Autorit"aten f"ur Autorit"aten, \underline{Hubs}
\footnote{Nabe, wie das Zentrum von einem Rad mit vielen Speichen, z.B. beim Fliegen erst mal zu einem gro"sen Flughafen,
vor dort aus weiter}) \\
Wie identifiziert man die beiden? \\
Achtung: \underline{Clustering} ist etwas anderes, z.B. die Trennung von Seiten, die z.B. \glqq echte Schl"ussel\grqq{} meinen von denen,
die Kryptographie meinen, oder Fenster von Windows (vor allem im Englischen) \\
\subsubsection{HITS-Algorithmus}
Wie identifiziert man \emph{Autorit"aten} und \emph{Hubs}? (bzw. wie misst man diese?)
\paragraph{Achtung:} \underline{Clustering} ist etwas anderes, z.B. die Trennung von Seiten, die z.B. \glqq echte Schl"ussel\grqq{} meinen von denen,
die Kryptographie meinen, oder Fenster von Windows (vor allem im Englischen) \\
Vorstellung des HITS\footnote{Hypertext-Induced Topic Search}-Algorithmus von Kleinberg \\
\begin{addmargin}{0.5cm}
\textbf{Gegeben}: eine thematisch breite Anfrage mittels Suchstring $\sigma$ \\
\textbf{Ziel}: Ausgabe von Seiten mit hoher Autorit"at \\
\begin{addmargin}{0.5cm}
Zuerst: berechne einen Graphen $S_\sigma$ (Basis) mit folgenden Eigenschaften
% warurm kein enumerate?
\begin{itemize}
\item[(i)] $S_\sigma$ ist relativ klein
\item[(ii)] $S_\sigma$ hat viele relevante Seiten
\item [(iii)]$S_\sigma$ hat viele der Seiten mit h"ochster Autorit"at
\end{itemize}
% TODO: image!
Wir beginnen mit einer textbasierten Suche, die uns die $t$\footnote{darf man selber w"ahlen} \glqq besten\grqq{} Seiten liefert
$\to$ Wurzel $R_\sigma$ (erf"ullt (i), (ii) aber nicht (iii)) \\
\textbf{Ph"anomen}: kaum interne Kanten (Links) (Kleinbergs Experiment: f"ur $t=200$ gabs bis zu $\leq 28$ interne Links bei
$39800$ m"oglichen internen Links) \\
Seite mit hoher Autorit"at bzgl. $\sigma $ nicht in $R_\sigma$. Wahrscheinlichkeit ist hoch, dass eine Seite aus $R_\sigma$
auf sie zeigt.
\end{addmargin}
\begin{lstlisting}
\noindent
\textbf{Gegeben}: thematisch breite Anfrage mittels Suchstring $\sigma$ \\
\textbf{Ziel}: Ausgabe von Seiten mit hoher Autorit"at bez"uglich $\sigma$\\
Zuerst: berechne einen Graphen $S_\sigma$ (Basis) mit folgenden Eigenschaften
% warurm kein enumerate?
\begin{enumerate}
\setlength\itemsep{0.1em}
\item $S_\sigma$ ist relativ klein
\item $S_\sigma$ hat viele relevante Seiten
\item $S_\sigma$ enth"ahlt viele Seiten mit h"ochster Autorit"at
\end{enumerate}
% TODO: image!
Wir beginnen mit einer textbasierten Suche, die uns die $t$\footnote{darf man selber w"ahlen} \glqq besten\grqq{} Seiten
$\to$ liefert Wurzelgraphen $R_\sigma$ (erf"ullt (i) und (ii) aber nicht (iii))
\paragraph{Ph"anomen:} kaum interne Kanten (Links) (im Aufsatz von Kleinbergs: f"ur $t=200$ nur $\leq 28$ interne Links bei
$2 \cdot \binom{200}{2}$ m"oglichen) \\
Seite mit hoher Autorit"at bzgl. $\sigma $ nicht in $R_\sigma$. Wahrscheinlichkeit ist hoch, dass eine Seite aus $R_\sigma$
auf sie zeigt.
\newpage
\begin{lstlisting}[mathescape, escapechar=|]
$S_\sigma$ := $R_\sigma$
fuer alle $p\in R_\sigma$
$S_\sigma$ := $S_\sigma \cup \Gamma^{+} (p)$ ^\footnote{Menge der Nachbarseiten von $p$ (Seiten, auf die $p$ zeigt)}^
if $|\Gamma^-(p)| \leq d$
then $S_\sigma := S_\sigma \cup \Gamma^-(p)$
else $S_\sigma := S_\sigma \cup d$ zufaellig aus $\Gamma^-(p)$ ausgewaehlte Seiten^\footnote{nennt sich Sampling}^
\end{lstlisting}
\begin{addmargin}{0.5cm}
[Kleinbergs. Exp. $t = 200, d = 50$ $S_\sigma \approx 1000$ bis $5000$ Seiten] \\
Noch 2 Heuristiken
\begin{itemize}
\item l"osche interne (bzgl. Domain) Links (Navigationslinks)
\item erlaube \underline{aus} einer Domain nur $m$ (ca. $4$ bis $8$) Links \underline{auf} eine Seite
(wegen: \glqq diese Seite wurde erstellt von...\grqq)
\end{itemize}
\begin{multicols}{2}
\input{imgs/2_2_hits_result.tex}
\vfill
\columnbreak
Nun: Unterscheiden zwischen relevanten und blo"s popul"aren. \\
Auf $S_\sigma$ ist die Sortierung schon nach dem Eingangsgrad ganz gut (im Gegensatz zum Gesamtgraphen).
\end{multicols}
\end{addmargin}
\end{addmargin}
$S_\sigma$ := $S_\sigma \cup \Gamma^{+} (p)$|\footnote{Menge der Nachbarseiten von $p$ (Seiten, auf die $p$ zeigt)}|
if $|\Gamma^-(p)| \leq d$
then $S_\sigma := S_\sigma \cup \Gamma^-(p)$
else $S_\sigma := S_\sigma \cup d$ (zufaellig aus $\Gamma^-(p)$ ausgewaehlte Seiten|\footnote{nennt sich Sampling}|)
\end{lstlisting}
(Kleinbergs Experimente von 1999: $t = 200,\; d = 500$, $S_\sigma \approx 1000$ bis $5000$ Seiten)
\paragraph{Noch 2 Heuristiken}
\begin{itemize}
\setlength\itemsep{0.1em}
\item l"osche interne (bzgl. Domain) Links (Navigationslinks)
\item erlaube \underline{aus} einer Domain nur $m$ (ca. $4$ bis $8$) Links \underline{auf} eine Seite
(wegen: \glqq diese Seite wurde erstellt von...\grqq)
\end{itemize}
\begin{multicols}{2}
\input{imgs/2_2_hits_result.tex}
\vfill
\columnbreak
Nun: Unterscheidung zwischen relevanten und blo"s popul"aren. Jetzt auch (iii)\\
Schon auf $S_\sigma$ ist die Sortierung nach dem Eingangsgrad recht gut, im Gegensatz zum Gesamtgraphen.
\end{multicols}
\underline{Autorit"at berechnen}
% merge ?
Seiten mit gro\ss er Autorit"at zur Anfrage $\sigma$ sollten nicht nur gro\ss en Eingangsgrad haben;
diejenigen, die auf sie zeigen, sollten sich erheblich "uberlappen; \underline{Hubs} \\
Hubs und Autorit"aten verst"arken sich gegenseitig. \\
\underline{Jede} Seite $p$ hat eine Autorit"at $x^{<p>}$ und ein Hubgewicht $y^{<p>}$ (Zahlen! \smiley)
so dass $\sum\limits_{p \in S_\sigma} (x^{<p>})^2 = 1$ und $\sum\limits_{p \in S_\sigma} (y^{<p>})^2 = 1$
\underline{Jede} Seite $p$ hat ein Autorit"atsgewicht $x^{\langle p \rangle}$, je gr"o{\ss}er, umso besser geeignet als Autorit"at auf $\sigma$.
Jede Seite $p$ hat ein Hubgewicht $y^{\langle p \rangle}$, je gr"o{\ss}er, umso wertvoller als Autorit"at f"ur Autorit"aten bez"uglich $\sigma$ ist $p$.
\begin{tabular}{ll}
Je gr"o\ss er der & $x$-Wert, um so besser zu $\sigma$ passend die Seite. \\
Je gr"o\ss er der & $x$-Wert, um so besser zu $\sigma$ passt die Seite. \\
& $y$-Wert, ein um so besserer Hub liegt vor.
\end{tabular}
\allowdisplaybreaks
\begin{multicols}{2}
\begin{center}
$x^{<p>} := \sum\limits_{q: (q \to p)} y^{<q>}$ \footnote{je mehr gute Hubs auf eine Seite zeigen, desto besser} \\
\input{imgs/2_2_auth_Gewicht.tex}
\input{imgs/2_2_auth_Gewicht.tex}\\
$x^{\langle p \rangle} := \sum\limits_{q: (q \to p)} y^{\langle q \rangle}$ \footnote{je mehr gute Hubs auf eine Seite zeigen, desto besser}
\end{center}
\vfill
\columnbreak
\begin{center}
$y^{<p>} := \sum\limits_{q: (p \to q)} x^{<q>}$ \footnote{auf je mehr Seiten mit hoher Autorit"at ein Hub zeigt, desto besser} \\
\input{imgs/2_2_hub_Gewicht.tex}
\input{imgs/2_2_hub_Gewicht.tex}\\
$y^{\langle p \rangle} := \sum\limits_{q: (p \to q)} x^{\langle q \rangle}$ \footnote{auf je mehr Seiten mit hoher Autorit"at ein Hub zeigt, desto besser}
\end{center}
\end{multicols}
auf L"ange 1 normiert.
Zus"atzlich: normiere die Vektoren ($x^{\langle p_1\rangle}, \ldots, x^{\langle p_?\rangle}$) und
($y^{\langle p_1\rangle}, \ldots, y^{\langle p_?\rangle}$) auf L"ange 1.
Nun gilt: $\sum\limits_{p \in S_\sigma} (x^{\langle p \rangle})^2 = 1$ und $\sum\limits_{p \in S_\sigma} (y^{\langle p \rangle})^2 = 1$
\begin{lstlisting}
\noindent
\textbf{Eingabe:} $k$: Anzahl der Iterationen , $S_{\sigma}$\\
\textbf{Ausgabe:} Die Autorit"atsgewiche $x$ der Seiten von $S_{\sigma}$
\begin{lstlisting}[mathescape]
Iterate(k)
n := $|S_\sigma|$; x := $\vec 1 \in \Rel^n$; y := $\vec 1 \in \Rel^n$
wiederhole k mal
$x^{<p>} :=$
$y^{<p>} :=$
normiere
$x^{\langle p \rangle} := \sum\limits_{q: (p \to q)} x^{\langle p \rangle}$
$y^{\langle p \rangle} := \sum\limits_{q: (p \to q)} y^{\langle p \rangle}$
normiere x und y auf 1
gib die Seite(n) auf mit hoechster Autoritaet in $x$
\end{lstlisting}
......@@ -144,19 +146,18 @@ Wenn A die Adjazenzmatrix\footnote{f"ur die Analyse, praktisch wird obiger Algor
\vec y &:= A \cdot \vec x
\end{align*}
\underline{Satz}: F"ur $k \to \infty$ konvergieren die Vektoren $x$ und $y$ bei Anwendung von Iterate(k). \\ % TODO image 4
\underline{Beweis}:
\paragraph{Satz:}F"ur $k \to \infty$ konvergieren die Vektoren $x$ und $y$ bei Anwendung von Iterate(k).
\paragraph{Beweis:}
\begin{align*}
\vec y_k = AA^T \cdot \vec y_{k-1} \quad \Rightarrow \vec y_k = (AA^T)^k \cdot \vec 1 \\
\vec x_k = A^TA \cdot \vec x_{k-1} \quad \Rightarrow \vec y_k = (A^TA)^{k-1} \cdot \vec 1
\vec x_k = A^TA \cdot \vec x_{k-1} \quad \Rightarrow \vec x_k = (A^TA)^{k} \cdot \vec 1
\end{align*}
Da $AA^T$ und $A^TA$ symmetrisch: Konvergenz $\square$. \\\\
%
$x$ konvergiert gegen den prinzipiellen Eigenvektor von $A^TA$ \\
Da $AA^T$ und $A^TA$ symmetrisch: alle Eigenwerte reell. Wegen der Normierung konvergiert $x$ gegen den prinzipiellen Eigenvektor
von $A^TA$, d.h. der Eigenvektor, der zum gr"o{\ss}ten Eigenwert geh"ort und L"ange 1 hat. \hfill$\square$\\
$y$ konvergiert gegen den prinzipiellen Eigenvektor von $AA^T$ \\
Der \underline{prinzipielle Eigenvektor}: Eigenvektor, der zum betragsm"a\ss ig gr"o\ss ten Eigenwert geh"ort. \\
Experimente zeigen: $k \approx 20$ bis $30$ reicht aus. (Expander: relativ gro\ss e Teilmenge von Knoten hat viele Nachbarn au\ss erhalb der Knotenmenge)
$S_\sigma$ ist Teil des WWW, und der WWW-Graph \underline{ist} ein Expander.
\underline{Literatur}: Jon M. Kleinberg: Authoritative Sources in a Hyperlinked Environment, J.ACM 1999 % TODO: wohin das?
......
No preview for this file type
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment