You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: docs/tex/1_Introduccion.tex
+3-3Lines changed: 3 additions & 3 deletions
Original file line number
Diff line number
Diff line change
@@ -1,10 +1,10 @@
1
1
\capitulo{1}{Introducción}
2
2
3
-
Actualmente no se dispone de ninguna biblioteca en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de un biblioteca que recoja aquellos algoritmos más comúnmente utilizados en la literatura.
3
+
Actualmente no se dispone de ninguna biblioteca en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de una biblioteca que recoja aquellos algoritmos más comúnmente utilizados en la literatura.
4
4
5
5
Lo mismo sucede con los algoritmos de aprendizaje semi-supervisado, la no disponibilidad de estos en un momento en el que es un campo que está siendo investigado por gran parte de la comunidad científica enfocada en \textit{Machine Learning}, retrasa y dificulta la investigación y la reproductibilidad de experimentos.
6
6
7
-
Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea descontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido. De tal manera que conformen la primera aportación formal del desarrollador a la comunidad \textit{Open source}.
7
+
Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea discontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido. De tal manera que conformen la primera aportación formal del desarrollador a la comunidad \textit{Open source}.
8
8
9
9
Se utilizarán ambas bibliotecas con el fin de realizar una experimentación en el campo del aprendizaje semi-supervisado seguro, pretendiendo validar la hipótesis de si se obtiene una mejor selección gracias a la aplicación de métodos de selección de instancias en el proceso del aprendizaje semi-supervisado.
10
10
@@ -30,7 +30,7 @@ \section{Estructura de la memoria}\label{estructura-de-la-memoria}
30
30
31
31
El documento de anexos posee la siguiente estructura:
32
32
\begin{itemize}
33
-
\item\textbf{Plan del proyecto software.} Exposición de la planificación temporal y los estudias de viabilidad económica y legal.
33
+
\item\textbf{Plan del proyecto software.} Exposición de la planificación temporal y los estudios de viabilidad económica y legal.
34
34
\item\textbf{Especificación de requisitos del software.} Exposición en detalle de los objetivos del proyecto, así como el catálogo de requisitos y la especificación de requisitos funcionales y no funcionales.
35
35
\item\textbf{Especificación de diseño.} Explicación de las decisiones seguidas para cumplir con los objetivos del proyecto. Y las principales características del diseño.
36
36
\item\textbf{Documentación técnica de programación.} Exposición de toda aquella información relevante para futuros desarrolladores encargados de continuar con alguno de los proyectos.
Copy file name to clipboardExpand all lines: docs/tex/2_Objetivos_del_proyecto.tex
+1-1Lines changed: 1 addition & 1 deletion
Original file line number
Diff line number
Diff line change
@@ -12,7 +12,7 @@
12
12
13
13
El enfoque que se le debe dar a las bibliotecas, en adelante \texttt{IS-SSL}\footnote{\textit{Instance Selection - Semi-Supervised Learning.}}, tanto de selección de instancias como de aprendizaje semi-supervisado, deberá permitir de manera sencilla la inclusión o añadido de nuevos algoritmos en un futuro, no siendo necesaria realizar grandes refactorizaciones para ello. Mediante ello se obtendrá un producto escalable y con un mantenimiento relativamente sencillo.
14
14
15
-
\texttt{UBULMLaaS} fue un proyecto desarrollado por el grupo de investigación ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de bibliotecas, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
15
+
\texttt{UBULMLaaS} fue un proyecto desarrollado por el grupo de investigación ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de bibliotecas, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso de la aplicación, de forma que la curva de aprendizaje sea mínima.
16
16
17
17
\subsection{Objetivos técnicos}
18
18
Además de lo anteriormente mencionado, el proyecto cuenta con una serie de objetivos técnicos que se pueden resumir en:
Blum~\cite{blum1998combining} en 1998 propuso el \textit{Co-Training} para conjuntos de datos compuestos por datos separables en dos vistas. Bajo la presunción de que con unos pocos datos etiquetados y diferentes clases que aportan información, se pueden entrenar dos algoritmos de aprendizaje por separado para posteriormente añadir al conjunto de datos etiquetados aquellas predicciones con un mayor intervalo de confianza (\textit{confidence level}).
89
89
90
-
Las dos características del problema mencionadas anteriormente, disponibilidad de datos etiquetados y no etiquetados, y la disponibilidad de dos <<tipos>> diferentes de conocimiento sobre los ejemplo; aproximan a la siguiente estrategia de aprendizaje. Se desea encontrar los predictores débiles basados en cada tipo de información utilizando un pequeño conjunto inicial de instancias etiquetadas, seguidamente, utilizando los datos no etiquetados se intenta hacer un \textit{bootstrap} a partir de esos <<malos>> predictores. Este tipo de \textit{bootstrapping} es el denominado \textit{Co-Training}, y posee una estrecha relación con el \textit{bootstrapping} a partir de datos incompletos en el marco de la maximización de expectativas~\cite{ghahramani1994supervised, ratsaby1995learning}.
90
+
Las dos características del problema mencionadas anteriormente, disponibilidad de datos etiquetados y no etiquetados, y la disponibilidad de dos <<tipos>> diferentes de conocimiento sobre los ejemplos; aproximan a la siguiente estrategia de aprendizaje. Se desea encontrar los predictores débiles basados en cada tipo de información utilizando un pequeño conjunto inicial de instancias etiquetadas, seguidamente, utilizando los datos no etiquetados se intenta hacer un \textit{bootstrap} a partir de esos <<malos>> predictores. Este tipo de \textit{bootstrapping} es el denominado \textit{Co-Training}, y posee una estrecha relación con el \textit{bootstrapping} a partir de datos incompletos en el marco de la maximización de expectativas~\cite{ghahramani1994supervised, ratsaby1995learning}.
91
91
92
92
\begin{algorithm}[H]
93
93
\KwIn{Conjunto de entrenamiento $L \lbrace\left(x_i, y_i\right)\rbrace_{i=1}^l$ y $U \lbrace x_j \rbrace_{j=l+1}^{l+u}$ de datos etiquetados y no etiquetados, respectivamente}
@@ -578,7 +578,7 @@ \subsubsection{Algoritmos de selección de instancias}\label{subsubsec:Instance-
578
578
579
579
La aproximación realizada por Barandela \textit{et al.} modifica la condición nº 3 anteriormente propuesta, mientras que las nº 1 y 2 no son modificadas. De forma que la definición nº 3 queda formulada de la siguiente manera:
580
580
581
-
\emph{El Subconjunto Selectivo Modificado, \textit{MSS}, se define como el subconjunto del conjunto de entrenamiento $TS$, el cual $\forall x_i \in TS$ aquella instancia de $Y_i$qiue es más cercano a otra clase que a la de $x_i$, \textit{i.e.} el más cercano a su enemigo más cercano.}
581
+
\emph{El Subconjunto Selectivo Modificado, \textit{MSS}, se define como el subconjunto del conjunto de entrenamiento $TS$, el cual $\forall x_i \in TS$ aquella instancia de $Y_i$que es más cercano a otra clase que a la de $x_i$, \textit{i.e.} el más cercano a su enemigo más cercano.}
582
582
583
583
584
584
El objetivo principal de esta modificación es reforzar la condición que debe cumplir el subconjunto reducido para maximizar la aproximación a la frontera de decisión. Quedando definido el algoritmo, ver algoritmo~\ref{alg:Barandela-MSS}, como una alternativa eficiente al algoritmo propuesto por Ritter \textit{et al.}, siendo capaz de seleccionar mejores instancias (más cercanas a la frontera de decisión).
Copy file name to clipboardExpand all lines: docs/tex/4_Tecnicas_y_herramientas.tex
+6-4Lines changed: 6 additions & 4 deletions
Original file line number
Diff line number
Diff line change
@@ -82,14 +82,16 @@ \subsection{Investigación}
82
82
\subsubsection{\textit{Ranking} medio}
83
83
En el campo de la estadística, los \textit{rankings} permiten la transformación de datos en función de su posición cuando el conjunto de datos es ordenado.
84
84
85
-
El \textit{ranking} medio se calcula de la siguiente manera: para una serie de conjuntos de datos los cuales han sido utilizado por diferentes clasificadores, cada uno de estos habrá reportado unos resultados para cada uno de los conjuntos de datos y sobre éstos últimos se puede obtener un \textit{ranking}, el \textit{ranking} medio consiste en calcular la media de los \textit{rankings} reportados para cada conjuntos de datos por cada clasificador.
85
+
El \textit{ranking} medio se calcula de la siguiente manera: para una serie de conjuntos de datos los cuales han sido utilizado por diferentes clasificadores, cada uno de estos habrá reportado unos resultados para cada uno de los conjuntos de datos y sobre éstos últimos se puede obtener un \textit{ranking}, el \textit{ranking} medio consiste en calcular la media de los \textit{rankings} reportados para cada conjunto de datos por cada clasificador.
86
86
87
87
\subsubsection{\textit{Test} estadístico}
88
-
Mecanismo para tomar decisiones cuantitativas sobre un proceso o una serie de estos. El objetivo es determinar si hay suficientes pruebas para <<rechazar>> una hipótesis sobre el proceso. La conjetura se denomina hipótesis nula. No rechazarla puede ser un resultado si se quiere seguir actuando como si se <<creyera>> que la hipótesis nula es cierta. O puede ser un resultado decepcionante, que posiblemente indique auq aún no se poseen suficientes datos para <<demostrar>> algo rechazando la hipótesis nula~\cite{lucon2018new}~\cite{nist}.
88
+
Mecanismo para tomar decisiones cuantitativas sobre un proceso o una serie de estos. El objetivo es determinar si hay suficientes pruebas para <<rechazar>> una hipótesis sobre el proceso. La conjetura se denomina hipótesis nula. No rechazarla puede ser un resultado si se quiere seguir actuando como si se <<creyera>> que la hipótesis nula es cierta. O puede ser un resultado decepcionante, que posiblemente indique que aún no se poseen suficientes datos para <<demostrar>> algo rechazando la hipótesis nula~\cite{lucon2018new}~\cite{nist}.
89
89
90
90
\section{Herramientas}\label{sec:herramientas}
91
91
\subsection{UBUMLaaS}\label{UBUMLaaS}
92
-
UBUMLaaS surge como una plataforma de \textit{Machine Learning as a Service} basada en los métodos desarrollados tanto por el grupo de investigación ADMIRABLE\footnote{\textit{Advanced Data MIning Research And (Business intelligence | Bioinformatics | Big data) LEarning}. El objetivo principal del grupo de investigación es el desarrollo de nuevos algoritmos de \textit{ensemble} y la aplicación de técnicas de minería de datos y \textit{pattern matching} a diversos campos como la bioinformática, la clasificación de series temporales y el análisis de datos de alta dimensión~\cite{admirable_intro}}. Junto con los desarrollados por BEST-AI\footnote{El Grupo de Investigación BEST-AI (Biología, Educación y Salud con Tecnologías Avanzadas Informáticas) de la Universidad de Burgos, centra su actividad investigadora en el desarrollo de nuevos algoritmos de minería de datos e inteligencia artificial y en su aplicación a problemas biológicos, bioinformáticos, sanitarios, medioambientales o educativos.}.
92
+
UBUMLaaS surge como una plataforma de \textit{Machine Learning as a Service} basada en los métodos desarrollados tanto por el grupo de investigación ADMIRABLE\footnote{\textit{Advanced Data MIning Research And (Business intelligence | Bioinformatics | Big data) LEarning}. El objetivo principal del grupo de investigación es el desarrollo de nuevos algoritmos de \textit{ensemble} y la aplicación de técnicas de minería de datos y \textit{pattern matching} a diversos campos como la bioinformática, la clasificación de series temporales y el análisis de datos de alta dimensión~\cite{admirable_intro}.}.
93
+
94
+
Junto con ellos, se incluyen los desarrollados por el grupo de investigación BEST-AI\footnote{El Grupo de Investigación BEST-AI (Biología, Educación y Salud con Tecnologías Avanzadas Informáticas) de la Universidad de Burgos, centra su actividad investigadora en el desarrollo de nuevos algoritmos de minería de datos e inteligencia artificial y en su aplicación a problemas biológicos, bioinformáticos, sanitarios, medioambientales o educativos.}.
93
95
94
96
El proyecto permite a terceros, registrados en la plataforma, hacer uso de técnicas de aprendizaje automático en la nube. En una primera instancia fue desarrollado por miembros del grupo ADMIRABLE.
95
97
@@ -197,6 +199,6 @@ \subsection{ZenHub}
197
199
\subsection{Visual Paradigm}
198
200
Visual Paradigm es una herramienta UML-CASE: Ingeniería de \textit{Software} Asistida por Computación. Desarrollada para soportar el ciclo de vida completo del proceso de desarrollo \textit{software} a través de la representación de todo tipo de diagramas.
199
201
200
-
Permitiendo el modelado de modelado de diagramas UML (entre otros), dando soporte principalmente a diagramas de clases, casos de uso,secuencia, estados, actividad, paquetes, etc.
202
+
Permitiendo el modelado de modelado de diagramas UML (entre otros), dando soporte principalmente a diagramas de clases, casos de uso,secuencia, estados, actividad, paquetes, etc.
201
203
202
204
Página web de la herramienta: \url{https://www.visual-paradigm.com/}
0 commit comments