HITS

c417f773 · Jonas Schreiner · ecaeb2c3 · c417f773 · c417f773 · c417f773
Commit c417f773 authored 6 years ago by Jonas Schreiner
--- a/build.sh
+++ b/build.sh
+#! /usr/bin/sh
+latexmk -pdf -pvc lecture_notes.tex
--- a/kapitel/websuche_datamining.tex
+++ b/kapitel/websuche_datamining.tex
@@ -25,116 +25,118 @@ Problem: wie misst man \emph{Autorit"at} ($\to$ \glqq messen von Emergenz \grqq
 	\item Die Seite mit h"ochster Autorit"at muss nicht einmal die Suchw"orter enthalten (z.B. www.audi.de und 
 	\glqq Automobilhersteller\grqq) 
 \end{itemize}
-Die Link-Struktur auswerten! Sie enth"alt menschliche Bewertungen \\
-Achtung:
+Zur textbasierten Suche zus"atzlich: Die Auswertung der Linkstruktur, sie enth"alt menschliche Bewertungen. \\
+\emph{Achtung:}
 \begin{itemize}
-	\item[+] Navigationslinks sollten nichts beitragen
-	\item[+] Werbung??
+    \setlength\itemsep{0.1em}
+	\item[-] Navigationslinks sollten nichts beitragen
+	\item[-] Werbung?
 \end{itemize}
+
 \paragraph{Erste Heuristik}

-\begin{addmargin}{0.5cm}
-	Gib von allen Seiten, die den Suchstring enthalten, die aus, auf die am h"aufigsten gezeigt wird. 
-	Probleme: 
-	\begin{itemize}
-		\item[$\to$] audi.de--Problematik 
-		\item[$\to$] popul"are Seiten, die h"aufig verlinkt, werden zu Autorit"aten f"ur alles 
-	\end{itemize}
-\end{addmargin}
-Hier jetzt: es gibt \underline{Autorit"aten} und die, die sie kennen. (Autorit"aten f"ur Autorit"aten, \underline{Hubs}
+Gib allen Seiten, die den Suchstring $\sigma$ enthalten aus, und die, auf die am h"aufigsten gezeigt wird, als erste.
+\emph{Probleme:} 
+\begin{itemize}
+    \setlength\itemsep{0.1em}
+    \item[$\to$] popul"are Seiten, die h"aufig verlinkt, werden zu Autorit"aten zu allen Themen
+    \item[$\to$] \glqq gute \grqq Seiten brauchen $\sigma$ ja gar nicht zu enthalten (audi.de--Problematik)
+\end{itemize}
+Hier f"ur uns: es gibt \underline{Autorit"aten} und die, die sie kennen. (Autorit"aten f"ur Autorit"aten, \underline{Hubs}
 \footnote{Nabe, wie das Zentrum von einem Rad mit vielen Speichen, z.B. beim Fliegen erst mal zu einem gro"sen Flughafen, 
 vor dort aus weiter}) \\
-Wie identifiziert man die beiden? \\
-Achtung: \underline{Clustering} ist etwas anderes, z.B. die Trennung von Seiten, die z.B. \glqq echte Schl"ussel\grqq{} meinen von denen,
-die Kryptographie meinen, oder Fenster von Windows (vor allem im Englischen) \\

 \subsubsection{HITS-Algorithmus}

+Wie identifiziert man \emph{Autorit"aten} und \emph{Hubs}? (bzw. wie misst man diese?)
+\paragraph{Achtung:} \underline{Clustering} ist etwas anderes, z.B. die Trennung von Seiten, die z.B. \glqq echte Schl"ussel\grqq{} meinen von denen,
+die Kryptographie meinen, oder Fenster von Windows (vor allem im Englischen) \\
+
 Vorstellung des HITS\footnote{Hypertext-Induced Topic Search}-Algorithmus von Kleinberg \\

-\begin{addmargin}{0.5cm}
-\textbf{Gegeben}: eine thematisch breite Anfrage mittels Suchstring $\sigma$ \\
-\textbf{Ziel}: Ausgabe von Seiten mit hoher Autorit"at  \\
-	\begin{addmargin}{0.5cm}
-	Zuerst: berechne einen Graphen $S_\sigma$ (Basis) mit folgenden Eigenschaften 
-	% warurm kein enumerate? 
-	\begin{itemize}
-		\item[(i)] $S_\sigma$ ist relativ klein 
-		\item[(ii)] $S_\sigma$ hat viele relevante Seiten 
-		\item [(iii)]$S_\sigma$ hat viele der Seiten mit h"ochster Autorit"at 
-	\end{itemize}
-	% TODO: image!
-	Wir beginnen mit einer textbasierten Suche, die uns die $t$\footnote{darf man selber w"ahlen} \glqq besten\grqq{} Seiten liefert 
-	$\to$ Wurzel $R_\sigma$ (erf"ullt (i), (ii) aber nicht (iii)) \\
-
-	\textbf{Ph"anomen}: kaum interne Kanten (Links) (Kleinbergs Experiment: f"ur $t=200$ gabs bis zu $\leq 28$ interne Links bei 
-	$39800$ m"oglichen internen Links) \\
-	Seite mit hoher Autorit"at bzgl. $\sigma $ nicht in $R_\sigma$. Wahrscheinlichkeit ist hoch, dass eine Seite aus $R_\sigma$
-	auf sie zeigt. 
-\end{addmargin}
-	\begin{lstlisting}
+\noindent
+\textbf{Gegeben}: thematisch breite Anfrage mittels Suchstring $\sigma$ \\
+\textbf{Ziel}: Ausgabe von Seiten mit hoher Autorit"at bez"uglich $\sigma$\\
+Zuerst: berechne einen Graphen $S_\sigma$ (Basis) mit folgenden Eigenschaften 
+% warurm kein enumerate? 
+\begin{enumerate}
+    \setlength\itemsep{0.1em}
+    \item $S_\sigma$ ist relativ klein 
+    \item $S_\sigma$ hat viele relevante Seiten 
+    \item $S_\sigma$ enth"ahlt viele Seiten mit h"ochster Autorit"at 
+\end{enumerate}
+% TODO: image!
+Wir beginnen mit einer textbasierten Suche, die uns die $t$\footnote{darf man selber w"ahlen} \glqq besten\grqq{} Seiten 
+$\to$ liefert Wurzelgraphen $R_\sigma$ (erf"ullt (i) und (ii) aber nicht (iii))
+\paragraph{Ph"anomen:} kaum interne Kanten (Links) (im Aufsatz von Kleinbergs: f"ur $t=200$ nur $\leq 28$ interne Links bei 
+$2 \cdot \binom{200}{2}$ m"oglichen) \\
+Seite mit hoher Autorit"at bzgl. $\sigma $ nicht in $R_\sigma$. Wahrscheinlichkeit ist hoch, dass eine Seite aus $R_\sigma$
+auf sie zeigt. 
+\newpage
+\begin{lstlisting}[mathescape, escapechar=|]
 $S_\sigma$ := $R_\sigma$ 
 fuer alle $p\in R_\sigma$ 
-	$S_\sigma$ := $S_\sigma \cup \Gamma^{+} (p)$ ^\footnote{Menge der Nachbarseiten von $p$ (Seiten, auf die $p$ zeigt)}^
-	if $|\Gamma^-(p)| \leq d$
-	then $S_\sigma := S_\sigma \cup \Gamma^-(p)$
-	else $S_\sigma := S_\sigma \cup d$ zufaellig aus $\Gamma^-(p)$ ausgewaehlte Seiten^\footnote{nennt sich Sampling}^
-	\end{lstlisting}
-\begin{addmargin}{0.5cm}
-	[Kleinbergs. Exp. $t = 200, d = 50$ $S_\sigma \approx 1000$ bis $5000$ Seiten] \\
-	Noch 2 Heuristiken
-	\begin{itemize}
-		\item l"osche interne (bzgl. Domain) Links (Navigationslinks) 
-		\item erlaube \underline{aus} einer Domain nur $m$ (ca. $4$ bis $8$) Links \underline{auf} eine Seite 
-		(wegen: \glqq diese Seite wurde erstellt von...\grqq) 
-	\end{itemize}
-	\begin{multicols}{2}
-		\input{imgs/2_2_hits_result.tex}
-		\vfill
-	\columnbreak
-		Nun: Unterscheiden zwischen relevanten und blo"s popul"aren. \\
-		Auf $S_\sigma$ ist die Sortierung schon nach dem Eingangsgrad ganz gut (im Gegensatz zum Gesamtgraphen).
-	\end{multicols}
-	\end{addmargin}
-\end{addmargin}
+    $S_\sigma$ := $S_\sigma \cup \Gamma^{+} (p)$|\footnote{Menge der Nachbarseiten von $p$ (Seiten, auf die $p$ zeigt)}|
+    if $|\Gamma^-(p)| \leq d$
+        then $S_\sigma := S_\sigma \cup \Gamma^-(p)$
+        else $S_\sigma := S_\sigma \cup d$ (zufaellig aus $\Gamma^-(p)$ ausgewaehlte Seiten|\footnote{nennt sich Sampling}|)
+\end{lstlisting}
+(Kleinbergs Experimente von 1999: $t = 200,\; d = 500$, $S_\sigma \approx 1000$ bis $5000$ Seiten)
+\paragraph{Noch 2 Heuristiken}
+\begin{itemize}
+    \setlength\itemsep{0.1em}
+    \item l"osche interne (bzgl. Domain) Links (Navigationslinks) 
+    \item erlaube \underline{aus} einer Domain nur $m$ (ca. $4$ bis $8$) Links \underline{auf} eine Seite 
+    (wegen: \glqq diese Seite wurde erstellt von...\grqq) 
+\end{itemize}
+\begin{multicols}{2}
+    \input{imgs/2_2_hits_result.tex}
+    \vfill
+\columnbreak
+    Nun: Unterscheidung zwischen relevanten und blo"s popul"aren. Jetzt auch (iii)\\
+    Schon auf $S_\sigma$ ist die Sortierung nach dem Eingangsgrad recht gut, im Gegensatz zum Gesamtgraphen.
+\end{multicols}
 \underline{Autorit"at berechnen}

-% merge ?
 Seiten mit gro\ss er Autorit"at zur Anfrage $\sigma$ sollten nicht nur gro\ss en Eingangsgrad haben;
 diejenigen, die auf sie zeigen, sollten sich erheblich "uberlappen; \underline{Hubs} \\

 Hubs und Autorit"aten verst"arken sich gegenseitig. \\
-\underline{Jede} Seite $p$ hat eine Autorit"at $x^{<p>}$ und ein Hubgewicht $y^{<p>}$ (Zahlen! \smiley)
-so dass $\sum\limits_{p \in S_\sigma} (x^{<p>})^2 = 1$ und $\sum\limits_{p \in S_\sigma} (y^{<p>})^2 = 1$
+\underline{Jede} Seite $p$ hat ein Autorit"atsgewicht $x^{\langle p \rangle}$, je gr"o{\ss}er, umso besser geeignet als Autorit"at auf $\sigma$.
+Jede Seite $p$ hat ein Hubgewicht $y^{\langle p \rangle}$, je gr"o{\ss}er, umso wertvoller als Autorit"at f"ur Autorit"aten bez"uglich $\sigma$ ist $p$.

 \begin{tabular}{ll}
-Je gr"o\ss er der & $x$-Wert, um so besser zu $\sigma$ passend die Seite. \\
+Je gr"o\ss er der & $x$-Wert, um so besser zu $\sigma$ passt die Seite. \\
 	& $y$-Wert, ein um so besserer Hub liegt vor.
 \end{tabular}

 \allowdisplaybreaks
 \begin{multicols}{2}
 	\begin{center}
-		$x^{<p>} := \sum\limits_{q: (q \to p)} y^{<q>}$  \footnote{je mehr gute Hubs auf eine Seite zeigen, desto besser} \\
-		\input{imgs/2_2_auth_Gewicht.tex}
+		\input{imgs/2_2_auth_Gewicht.tex}\\
+		$x^{\langle p \rangle} := \sum\limits_{q: (q \to p)} y^{\langle q \rangle}$  \footnote{je mehr gute Hubs auf eine Seite zeigen, desto besser}
 	\end{center}
-	\vfill
 \columnbreak
 	\begin{center}
-		$y^{<p>} := \sum\limits_{q: (p \to q)} x^{<q>}$  \footnote{auf je mehr Seiten mit hoher Autorit"at ein Hub zeigt, desto besser} \\
-		\input{imgs/2_2_hub_Gewicht.tex}
+		\input{imgs/2_2_hub_Gewicht.tex}\\
+		$y^{\langle p \rangle} := \sum\limits_{q: (p \to q)} x^{\langle q \rangle}$  \footnote{auf je mehr Seiten mit hoher Autorit"at ein Hub zeigt, desto besser}
 	\end{center}
 \end{multicols}

-auf L"ange 1 normiert.
+Zus"atzlich: normiere die Vektoren ($x^{\langle p_1\rangle}, \ldots, x^{\langle p_?\rangle}$) und 
+($y^{\langle p_1\rangle}, \ldots, y^{\langle p_?\rangle}$) auf L"ange 1.
+Nun gilt: $\sum\limits_{p \in S_\sigma} (x^{\langle p \rangle})^2 = 1$ und $\sum\limits_{p \in S_\sigma} (y^{\langle p \rangle})^2 = 1$

-\begin{lstlisting}
+\noindent
+\textbf{Eingabe:} $k$: Anzahl der Iterationen , $S_{\sigma}$\\ 
+\textbf{Ausgabe:} Die Autorit"atsgewiche $x$ der Seiten von $S_{\sigma}$
+\begin{lstlisting}[mathescape]
 Iterate(k)
 	n := $|S_\sigma|$; x := $\vec 1 \in \Rel^n$; y := $\vec 1 \in \Rel^n$
 	wiederhole k mal
-		$x^{<p>} :=$
-		$y^{<p>} :=$
-		normiere
+		$x^{\langle p \rangle} := \sum\limits_{q: (p \to q)} x^{\langle p \rangle}$
+		$y^{\langle p \rangle} := \sum\limits_{q: (p \to q)} y^{\langle p \rangle}$
+        normiere x und y auf 1
 	gib die Seite(n) auf mit hoechster Autoritaet in $x$
 \end{lstlisting}

@@ -144,19 +146,18 @@ Wenn A die Adjazenzmatrix\footnote{f"ur die Analyse, praktisch wird obiger Algor
 	\vec y &:= A \cdot \vec x
 \end{align*}

-\underline{Satz}: F"ur $k \to \infty$ konvergieren die Vektoren $x$ und $y$ bei Anwendung von Iterate(k). \\ % TODO image 4
-\underline{Beweis}: 
+\paragraph{Satz:}F"ur $k \to \infty$ konvergieren die Vektoren $x$ und $y$ bei Anwendung von Iterate(k).
+\paragraph{Beweis:} 
 \begin{align*}
 	\vec y_k = AA^T \cdot \vec y_{k-1} \quad \Rightarrow \vec y_k = (AA^T)^k \cdot \vec 1 \\
-	\vec x_k = A^TA \cdot \vec x_{k-1} \quad \Rightarrow \vec y_k = (A^TA)^{k-1} \cdot \vec 1
+	\vec x_k = A^TA \cdot \vec x_{k-1} \quad \Rightarrow \vec x_k = (A^TA)^{k} \cdot \vec 1
 \end{align*}
-Da $AA^T$ und $A^TA$ symmetrisch: Konvergenz $\square$. \\\\
-%
-$x$ konvergiert gegen den prinzipiellen Eigenvektor von $A^TA$ \\
+Da $AA^T$ und $A^TA$ symmetrisch: alle Eigenwerte reell. Wegen der Normierung konvergiert $x$ gegen den prinzipiellen Eigenvektor 
+von $A^TA$, d.h. der Eigenvektor, der zum gr"o{\ss}ten Eigenwert geh"ort und L"ange 1 hat. \hfill$\square$\\
+
 $y$ konvergiert gegen den prinzipiellen Eigenvektor von $AA^T$ \\
 Der \underline{prinzipielle Eigenvektor}: Eigenvektor, der zum betragsm"a\ss ig gr"o\ss ten Eigenwert geh"ort. \\
 Experimente zeigen: $k \approx 20$ bis $30$ reicht aus. (Expander: relativ gro\ss e Teilmenge von Knoten hat viele Nachbarn au\ss erhalb der Knotenmenge)
-
 $S_\sigma$ ist Teil des WWW, und der WWW-Graph \underline{ist} ein Expander.

 \underline{Literatur}: Jon M. Kleinberg: Authoritative Sources in a Hyperlinked Environment, J.ACM 1999 % TODO: wohin das?

--- a/lecture_notes.pdf
+++ b/lecture_notes.pdf