-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathidea.tex
155 lines (152 loc) · 4.95 KB
/
idea.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
\documentclass[12pt, xcolor=table]{beamer}
\usepackage{graphicx}
\usepackage[ngerman]{babel}
\usepackage[utf8]{inputenc}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{listings}
\usepackage{hyperref}
\usepackage{fancyvrb}
\usepackage{color}
\usepackage[percent]{overpic}
\usepackage[footnotesize, bf]{caption}
\input{theme.tex}
\input{syntax}
\renewcommand{\footnotesize}{\tiny}
\begin{document}
\title{Algorithmen und Analyse auf bibliographischen Daten}
\author{peterr und Lusy}
\date{\today}
\begin{frame}
\titlepage
\end{frame}
\begin{frame}
\frametitle{Eigenschaften des Datensatzes}
\begin{itemize}
\item enthält ca. $706\,000$ Einträge
\item mit 19 verschiedenen Themengebieten
\item nur der Themenbereich Physik wird in Themengruppen unterteilt
\item 11 Einträge ohne Informationen
\item Publikationen haben im Durchschnitt 1.3 und maximal 9 Themen
\end{itemize}
\end{frame}
\begin{frame}[fragile]
\frametitle{Aufbau des Datensatzes}
\begin{block}{Header}
\include{header}
\end{block}
\begin{block}{Metadaten}
\include{metadata}
\end{block}
\end{frame}
\begin{frame}
\frametitle{Parsen der Daten}
\begin{itemize}
\item Parser in Python geschrieben
\item kompletter Datensatz in den Speicher
\begin{itemize}
\item Overhead des XML-Parser nicht beachtet
\end{itemize}
\item iterativer Ansatz \footnote{http://www.ibm.com/developerworks/xml/library/x-hiperfparse/}
\item benötigt ca. 70 Sekunden für 1.2 GB
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Verteilung der Themen}
\begin{center}
\includegraphics[scale=0.35]{../visual/treeParent.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Aufschlüsselung von physics}
\begin{center}
\includegraphics[scale=0.45]{../visual/setSpecFreq.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Häufigkeit von Themen pro Publikation}
\begin{columns}
\column{.5\textwidth}
\includegraphics[scale=0.35]{../visual/piechart.png}
\column{.5\textwidth}
\includegraphics[scale=0.25]{../visual/pieSubplot.png}
\end{columns}
\end{frame}
\begin{frame}
\frametitle{Was sind Assoziationsregeln?}
\begin{itemize}
\item bestimmen Korrelation des Auftretes von Mengen
\item Regel der Form "Wenn Menge A, dann Menge B"
\item Kenngrößen
\begin{itemize}
\item Support - relative Häufigkeit der Menge in den Daten
\item Konfidenz - Häufikeit des gemeinsames Auftretens von A und B, unter der Bedingung das A auftritt
\item Lift - Bedeutung der Regel
\end{itemize}
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Assoziationsregeln - aller Themen}
\begin{center}
\begin{table}
\rowcolors[]{1}{blue!20}{blue!10}
\begin{tabular}{rccc}
\tiny\textbf{Regel} &\tiny \textbf{Support} &\tiny \textbf{Konfidenz} & \tiny \textbf{Lift}\\
\hline
\tiny math $\implies$ stat & \tiny 0.6\% &\tiny 64\% &\tiny 3.0 \\
\tiny physics:math-ph $\implies$ math &\tiny 3.8 \% &\tiny 100\% &\tiny 4.7 \\
\tiny physics:hep-th, physics:math-ph $\implies$ math &\tiny 0.9 \% &\tiny 100\% &\tiny 4.7 \\
\tiny math, physics:hep-th $\implies$ physics:math-ph &\tiny 0.9 \% &\tiny 63\% &\tiny 16.3 \\
\tiny physics:gr-qc, physics:hep-th $\implies$ physics:hep-th &\tiny 0.6 \% &\tiny 72 \% &\tiny 6.1 \\
\tiny physics:gr-qc, physics:hep-th $\implies$ physics:astro-ph &\tiny 0.6 \% &\tiny 70 \% &\tiny 3.5 \\
\tiny physics:gr-qc, physics:astro-ph $\implies$ physics:hep-th &\tiny 0.9 \% &\tiny 50 \% &\tiny 4.3 \\
\tiny physics:astro-ph, physics:hep-th $\implies$ physics:gr-qc &\tiny 0.9 \% &\tiny 74 \% &\tiny 12.4 \\
\end{tabular}
\caption*{Support: 0.5 \% und Konfidenz 50 \%}
\end{table}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Assoziationsregeln - Oberthemen}
\begin{center}
\begin{table}
\rowcolors[]{1}{blue!20}{blue!10}
\begin{tabular}{rccc}
\tiny\textbf{Regel} &\tiny \textbf{Support} &\tiny \textbf{Konfidenz} & \tiny \textbf{Lift}\\
\hline
\tiny $\emptyset \implies$ physics & \tiny 78\% &\tiny 78\% &\tiny 1.0 \\
\tiny stat $\implies$ math &\tiny 0.6 \% &\tiny 63 \% &\tiny 3.0 \\
\tiny nlin $\implies$ physics &\tiny 1.3 \% &\tiny 50 \% &\tiny 0.64 \\
\tiny math, nlin $\implies$ physics &\tiny 0.4 \% &\tiny 83 \% &\tiny 1.1 \\
\end{tabular}
\caption*{Support: 0.1 \% und Konfidenz 50 \%}
\end{table}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Probleme}
\begin{itemize}
\item mehrere Datumsangaben
\item Themen in Metadaten nicht eindeutig
\begin{itemize}
\item unterschiedliche Kategorisierungen
\item auch in einem Eintrag
\end{itemize}
\item Themenbereiche nachzuschlagen ist aufwendig
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Weitere Analysen}
\begin{itemize}
\item Aufschlüsselung der Themenbereiche
\item Regeln für die Unterthemen
\item Algorithmus implementieren?
\begin{itemize}
\item AIS-Algorithmnus
\item Apriori-Algorithmus
\item FPGrowth
\end{itemize}
\item Entwicklung in Abhängigkeit von der Zeit
\end{itemize}
\end{frame}
\end{document}