MIME-Version: 1.0 Content-Type: multipart/related; boundary="----=_NextPart_01D78858.F2876CA0" Este documento es una página web de un solo archivo, también conocido como "archivo de almacenamiento web". Si está viendo este mensaje, su explorador o editor no admite archivos de almacenamiento web. Descargue un explorador que admita este tipo de archivos. ------=_NextPart_01D78858.F2876CA0 Content-Location: file:///C:/E6456099/03_Desarrollodeunprototipo_JuanandresPaguay.htm Content-Transfer-Encoding: quoted-printable Content-Type: text/html; charset="windows-1252"
Desarrollo de un
prototipo para la predicción de nuevos casos de covid-19 en el ecuador medi=
ante
el uso de inteligencia artificial.
Development of a prototy=
pe
for the prediction of new cases of covid-19 in ecuador=
through the use of artificial intelligence.
Juan
Andrés Paguay Hurtado. [1]
Recibido: 10-06-2021 / Revisado: 20-06-2021 /Aceptado: 08-07-2021/
Publicado: 05-08-2021
Introduc=
tion. Cases of coronavirus (Covid-19) around the world are increasing. The
uncertainty of a figure close to reality generates anguish in the populatio=
n.
Objective. Propose the use of Artificial Intelligence (AI) to determine the
increase in Covis-19 cases in Ecuador, applying this model will provide
approximate information on coronavirus cases. Helping to keep the entire
population informed about the spread of this virus. Methodology. The design of this research was quantitative, the
population that was taken was 17,268,000 and the sample was the data of the
infections of Covid-19 from the month of April to the month of December of =
the
year 2020. For this, it was taken as data source the information published
daily on the official website of the National Risk and Emergency Management
Service. Using predictive models as support, these data were stored in a da=
ta
set, to later be consolidated and later entered into an algorithm, which us=
ing
time series will make predictions based on historical data using the weka software. The following article presents a model
capable of predicting the close-to-reality number of coronavirus cases,
achieving 80% effectiveness. So it can be stated=
that
this model is very useful for making predictions within a given period. Results. After applying the predi=
ction
model, the most frequent results are the increases in Covid-19 infections w=
ith
an increase of (1%) for each day that has elapsed. Conclution. It was concluded that the cases will continue to increase over
time since the majority of the population does not take the respective
precautions and disrespects social distancing.
Keywords: Data
Mining, Machine Learning, Time Series, Weka.
Resumen.<= o:p>
In=
troducción. Los casos de coronavirus (Covid-19) en el mundo entero, van c=
ada
vez en aumento. La incertidumbre de una cifra cercana a la realidad, genera
angustia en la población. Objetivo=
. Plantear el uso de la Inteligencia Artif=
icial
(IA) para determinar el incremento de casos de Covis-19 en el ecuador, al
aplicar este modelo <=
/span>se
tendrá una información aproximada de los casos de coronavirus. Ayudando a t=
ener
informada a toda la población sobre la propagación de este virus. Metodología. El diseńo de esta
investigación fue cuantitativa, la población que=
se
tomó fue 17.268.000 y la muestra fueron los datos de los contagios de Covid=
-19
desde el mes de abril hasta el mes de diciembre del ańo 2020. Para ello, se
tomó como fuente de datos la información publicada diariamente en la página=
oficial
del Servicio Nacional de Gestión de Riesgos y Emergencias. Utilizando como
apoyo los modelos predictivos, se almacenaron estos datos en un data set, p=
ara
luego ser consolidados y posteriormente introducirlos en un algoritmo, el c=
ual
utilizando series de tiempo realizará las predicciones en base a datos
históricos mediante el software weka. El siguiente artículo, presenta un mo=
delo
capaz de predecir la cifra cercana a la realidad de casos de coronavirus,
consiguiendo un 80% de efectividad. Por
lo que se puede manifestar que este modelo resulta muy útil para realizar
predicciones dentro de un periodo determinado. Resultados. Luego de aplicar el modelo de predicción los result=
ados
mayor frecuencia son los incrementos de contagios de Covid-19 con un increm=
ento
del (1%) por cada día transcurrido. Conclusión.
Se concluyó que los casos seguirán incrementando con el pasar del tiempo ya=
que
la mayoría de la población no toma las precauciones respectivas e irrespeta=
el
distanciamiento social.
P=
alabras
Clave: Data Mining,
Machine Learning, Serie de Tiempo, Weka.
La Organización Mundial de la Salud (OMS) declaró =
la
enfermedad por coronavirus (Covid-19) una emergencia de salud pública de
importancia internacional.
El Servicio Nacional de Gestión de Riesgos y
Emergencias es el encargado de publicar información sobre los casos de Covi=
d-19
en el país.
Para el análisis de datos se pretende desarrollar =
un
prototipo mediante el software weka, dentro de este software se aplicarán
técnicas para realizar el modelo predictivo el cual arrojara como resultado
datos, los mismos son de gran ayuda para tomar medidas y con ello reducir el
creciente incremento de casos de Covid-19.
Para el análisis de datos estos se presentarán den=
tro
de gráficas para demostrar el resultado obtenido por el modelo predictivo y=
a
su vez hacer el análisis comparativo pertinente entre los datos reales y los
datos que son arrojados por el modelo. De este modo se tiene un producto fi=
nal
eficiente el cual ayudara a la toma de decisiones en base a los resultados
presentados.
A.&n=
bsp;
=
Reseńa
Histórica
El papel principal que desarrolla la inteligencia
artificial es el tratamiento y análisis de datos.
En ocasiones, se desarrollan dos fases dentro de l=
a IA;
la primera fase es la fase de aprendizaje y una segunda es la fase de predi=
cción.
En la primera fase (fase de aprendizaje) se ingres=
an
los datos más representativos de ciertas situaciones que van a ser analizad=
as,
de esta forma el sistema IA aprende las características más relevantes de l=
os datos
analizados de este modo es capaz de generalizar su estructura, esta estruct=
ura
forma un modelo de datos mediante los cuales se pueden =
realizar una predicción acertada a
partir de nuevas características.
En el área de ingeniería la IA se utiliza para:
ˇ&nb=
sp;
La organización de la
producción
ˇ&nb=
sp;
La optimización de
procesos
ˇ&nb=
sp;
El cálculo de estruct=
uras
ˇ&nb=
sp;
La planificación y
logística
ˇ&nb=
sp;
El diagnóstico de fal=
los
ˇ&nb=
sp;
La toma de decisiones=
B.
Weka
Es un software de aprendizaje automático de código
abierto, el mismo nos permite trabajar por medio de una interfaz gráfica o
mediante las aplicaciones de terminal estándar esto es posible a través de =
una
API de Java. Este software tiene un sin número de herramientas integradas p=
ara realizar
tareas estándar de aprendizaje automático.
Weka
es actualmente una de las plataformas para la minería de datos más populare=
s y
cuenta con un paquete dedicado específicamente a la predicción de series
temporales mediante técnicas de regresión
=
C. Serie de Tiempo
Una serie temporal se define como una secuencia de=
𝑛
observaciones o datos 𝑥
𝑡<=
span
lang=3DES-EC style=3D'font-size:12.0pt;line-height:115%;font-family:"Times =
New Roman",serif'>
ordenadas cronológicamente, sobre una característica (serie univariable)
o sobre varias características (serie multivariable) de una unidad observab=
le,
tomadas en diferentes momentos.
Las series temporales se caracterizan fundamentalm=
ente
por la gran numerosidad de los datos que la conforman, la alta dimensionali=
dad
y la necesidad de su constante actualización
Las series temporales se estudian principalmente c=
on
el objetivo de extraer información de algún fenómeno del pasado e intentar
predecir el futuro, lo cual permite descubrir características en los datos y
determinar su variación a largo plazo
D.
=
Machine
Learning
Es el aprendizaje automático que consiste en progr=
amar
computadoras para optimizar un criterio utilizando datos de ejemplo o exper=
iencia
pasada.
E.
=
Data
Mining
La minería de datos consiste en descubrir nuevas
correlaciones significativas, modelos y tendencias, filtrando grandes
cantidades de datos almacenados en repositorios digitales, a través del uso=
de patrones
de reconocimiento de modelos, así como de técnicas estadísticas y matemátic=
as
F.
=
Base
de Datos
Una base de datos consiste en una colección de dat=
os
almacenados dentro de un repositorio.
El software de base de datos proporciona mecanismos
para definir la estructura que debe tener la misma y cómo debe ser el
almacenamiento de datos; el software lo realiza para especificar y gestionar
concurrentes, compartidos, o acceso a datos distribuidos; de este modo no s=
olo se
garantiza la coherencia de la información que se almacena dentro de la base=
de
datos si no también seguridad de la información que se maneja
G.
=
Data
Set
Una data set son conjuntos de datos se componen de
objetos de datos, los objetos de datos representan una entidad.
Los objetos de datos se describen por atributos, y
estos atributos a su vez pueden ser nominales, binarios, ordinales o numéri=
cos
H.
=
Tipos
de Datos
Los valores de tipo nominal (o categórico) son símbol=
os o
nombres de cosas, donde cada valor representar una categoría, un código o
estado
Los atributos binarios son atributos nominales con so=
lo
dos estados posibles (como 1 y 0 o verdadero y falso). Si los dos estados s=
on
igualmente importantes, el atributo es simétrico
Un atributo ordinal tiene como posibles valores un or=
den
significativo o clasificarse entre ellos, pero se desconoce la magnitud ent=
re
valores sucesivos
Un atributo numérico es cuantitativo no es una cantid=
ad
medible, la misma se representa con
valores enteros o reales
I.
=
Modelo
de Predicción
Es un modelo se utiliza para predecir una variable de
clase de objetos para el o los valores que se desconoce
J.&n=
bsp;
Holt-Winters
Holt-Winters es una cl=
ase
que implementa el método de suavizado exponencial triple de para el pronóst=
ico
de series de tiempo. Diseńado para ser utilizado en el entorno de
predicción de Weka [1].
Holt=
-Winters considera nivel, tendencia y estacional de una
determinada serie de tiempo. Este método tiene dos principales modelos,
dependiendo del tipo de estacionalidad:
El modelo multiplica=
tivo
estacional: Este
modelo presupone que a medida que se incrementan los datos, también se
incrementa el patrón estacional, la mayoría de las gráficas que se presentan
mediante el uso de series de tiempo muestran este patrón.
El modelo aditivo
estacional:
Es un
modelo de datos en el que los efectos de los factores individuales se
diferencian y se agrupan para modelar los datos. Un modelo aditivo es opcio=
nal
para los procedimientos de descomposición y para el método de Winters
Exis=
ten
tres fases de trabajo, las mismas trabajan con tres conjuntos de datos
diferentes
1. El primer grupo de datos es para inicializar el
modelo, dónde debemos determinar los indicadores de nivel, tendencia y
estacionalidad
2. Es necesario un segundo conjunto de datos probar
los índices de suavización Alfa, Beta y Gamma
3. Con el tercer grupo de datos para se realiza el
pronóstico, evaluación y el funcionamiento del modelo propuesto. es la
siguiente:
La
fórmula que se utiliza para el pronóstico es la siguiente: D t, t+1 =3D (at
+T.bt) + F t +T-P Dónde: D =3D=
Es la variable
a estimar o pronosticar; a =3D=
Nivel
promedio de casos; b =3D Tende=
ncia; F =3D Factor de estacionalidad; =
t =3D Período actual; T =3D Número de períodos que se d=
esean
avanzar
La metodología utilizada para realizar este trabajo
será la metodología de piloto experimental ya que el objetivo que se tiene =
es
evaluar la efectividad del algoritmo y comprobar una predicción en base a
información obtenida y almacenada de manera previa.
Los pasos a seguir para el desarrollo de esta inve=
stigación
son los siguientes:
=
A. Obtener
la información proveniente del total de contagiados dentro de las diferentes
provincias del Ecuador: La información será
obtenida de la página oficial del Registro nacional de Gestión de Riesgos y
Emergencias para ser preparada y utilizada en el modelo de entrenamiento.
=
B. Preparar
datos para el análisis: Se seleccionarán los
atributos y características más relevantes, los cuales serán analizados en
búsqueda del resultado esperado.
=
C. Selección
de algoritmo: Se seleccionará un algoritmo en este ca=
so se
utilizará Holt-Winters el cual será entrenado c=
on
datos provenientes de la data set es decir de los casos confirmados dentro =
de
las provincias del Ecuador.
=
D. Comparación
y Resultados: Una vez obtenidos los
resultados podremos medir la efectividad del algoritmo escogido.
Al empezar a recolectar los datos desde que se pub=
licó
por primera vez el informe situacional en cuanto a los contagiados de
coronavirus (Covid-19) en el ecuador, desde ese momento se empezó a recolec=
tar
estos datos para posteriormente ser limpiados y almacenados en data set; en
este caso el data set fue realizado en una hoja de cálculo de Excel, el tip=
o de
dato utilizado es de tipo numérico.
Existen datos que se dejaron de publicar dentro de=
los
informes situacionales tal es el caso de los datos que se almacenan dentro =
de
la variable denominada Posibles Casos, estos datos fueron presentados den=
tro
de los informes hasta el día cinco del mes de abril del ańo en curso.
Al tener alimentado el data set con la información=
a
utilizar procedemos a ingresarla dentro del modelo de predicción, para real=
izar
una comparativa posterior entre la información de la página web del Servicio
Nacional de Gestión de Riesgos y los datos arrojados por el modelo.
El modelo está basado en el análisis de series en =
el
tiempo ya que utiliza toda la información de la data set para entrenar y
presentar la predicción para los días posteriores que se indiquen.
Fig.
Como se observa=
en
la Fig.1, nos presenta el algoritmo el cual va analizar los datos en este c=
aso
se analiza con HoltWinters el cual está directa=
mente
vinculado con las series de tiempo.
Fig.
En la Fig.2 se observa la variable que se va a
predecir, este caso la variable analizada es el total de casos de coronavir=
us
(Covid-19) que existen en el país, pero el modelo se puede emplear para
predecir cada una de las ciudades dentro del país, en el apartado de result=
ados
se presentara las predicciones para ciertas ciudades dentro del país.
Al
modelo se ingresaron datos desde el 23 de marzo del 2020 hasta el día 15 de
diciembre de 2020 para predecir los datos de los días posteriores.
Cabe
recalcar que las predicciones que se realizan tienen un 80% de efectividad.=
Los
resultados obtenidos son los siguientes:
Tabla 1 Resultados de la predic=
ción
=
Fuente: Elaboración propia.
En
la tabla anterior se presentan un extracto de los resultados de la predicci=
ón
obtenida; con la totalidad de los datos procederemos a realizar las gráficas
respectivas en donde se visualizará y se comprenderá de mejor manera el tra=
bajo
realizado.
Fig. 3 Resultados de la predicción
Fu=
ente:
Elaboración propia.
En
la figura anterior se muestra: El número de instancia que es el número de d=
ías
que han transcurrido desde que se reportó el primer caso, los valores inici=
ales
que son los valores que se ingresaron de manera diaria dentro del data set;
estos valores diarios dejaron de ser ingresados para posteriormente realizar
una comparativa entre valores iniciales y valores de predicción que arroja =
el
modelo.
Fig. 4 Resultados del total de casos confirmados=
Fuente: Elaboración propia.
En
la figura anterior se muestra el total de los casos confirmados dentro del =
país
está separado en semanas para una mayor comprensión.
=
Fig.
5 Comparativa de resultados
Fuente: Elaboración propia.
En
la figura se puede observar la gráfica entre los datos analizados y la
predicción, las gráficas están interceptadas en ciertos puntos, pero los
valores están relativamente cerca entre el valor obtenido y el valor predic=
ho
por el prototipo.
ˇ&nb=
sp;
Analizando los datos
obtenidos en base a los resultados y comparando con la actualidad del país,
resulta evidente la eficacia de este modelo predictivo, puesto que, si bien
existe variación, es mínima y está dentro de los rangos admitidos como
porcentaje de error.
ˇ&nb= sp; El uso de la herramie= nta Weka resulta de gran apoyo al momento de realizar este tipo de modelos, deb= ido a que nos permite automatizar ciertos procesos necesarios para los mismos.<= o:p>
Si bien el contar con datos históricos de un inter=
valo
de tiempo considerable (ańos, por ejemplo) es de gran apoyo al momento de
realizar modelos predictivos, en este caso en particular con los datos
recopilados con el paso de los meses ayudan para poder ofrecer un modelo lo
suficientemente efectivo.
Se recomienda para trabajos a futuro sobre modelos
predictivos el uso de Python, puesto que Weka es una herramienta que poco a
poco está quedando en el pasado.
(2014). En B=
. Raúl,
E. Gerard, K. Samir, & M. RodóDavid, Inteligencia Artificial Avanzada
(pág. 298). Barcelona, Espańa: Universitat Oberta de Catalunya.
Antonio, E. M. (Noviembre de 20=
18).
WEKA, ÁREAS DE APLICACIÓN Y SUS ALGORITMOS: UNA REVISIÓN SISTEMÁTICA.
ECOCIENCIA. Obtenido de
media.proquest.com/media/hms/PFT/1/xoCQ9?_s=3DUII2KLRQanh4Il7%2Fe49wkkQ%2=
B7c4%3D
DANIEL,=
T.
L., & CHANTAL, D. L. (s.f.). En DISCOVERING KNOWLEDGE IN DATA An
Introduction to Data Mining (Segunda ed.). New Jersey, Esatados Unidos de
Norte América. Obtenido de
doc.lagout.org/Others/Data%20Mining/Discovering%20Knowledge%20in%20Data_%=
20An%20Introduction%20to%20Data%20Mining%20%282nd%20ed.%29%20%5BLarose%20%2=
6%20Larose%202014-06-30%5D.pdf
Ethem, =
A.
(2010). Introduction to Machine Learning (Segunda ed.). Londres, Inglater=
ra.
Obtenido de
kkpatel7.files.wordpress.com/2015/04/alppaydin_machinelearning_2010.pdf
Han, J.,
Micheline, K., & Pei, J. (s.f.). Data Mining Concepts and Techniques
(Tercera ed.). Obtenido de myweb.sabanciuniv.edu/rdehkharghani/files/2016=
/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Michel=
ine-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan=
-Kaufmann-2011.pdf
HoltWinters. (2020). Recuperado=
el
25 de Febrero de 2021, de timeseriesForecasting 1.1.27 API:
https://weka.sourceforge.io/doc.packages/timeseriesForecasting/weka/class=
ifiers/timeseries/HoltWinters.html.
[Accessed: 22-Dec-2020].
Jasper
Fuk-Woo Chan*, S. Y.-H.-W. (January de 2020). A familial cluster of pneum=
onia
associated with the 2019 novel coronavirus indicating person-to-person
transmition: a study of a family cluster. The Lancet, 395(10223), 514-523=
.
Md, S.,
& Alam, K. (2012). Cointegration and causal relationships between ene=
rgy
consumption and output: Assessing the evidence from Australia.
Nancy, V. R. (2020). Recuperado=
el
Febrero de 2021, de RPubs - Holt-Winters.:
https://rpubs.com/nanrosvil/283121
Organización Mundial de la Salu=
d.
(Noviembre de 2020). PAndemia de Enfermedad por coronavirus(Covid-19). OM=
S.
Obtenido de www.who.int/emergencies/diseases/novel-coronavirus-2019
Tak-chung, F. (Septiembre de 20=
11).
A review on time series =
data
mining. ELSEIVER(24), 164-181.
Time Se=
ries
Analysis and Forecasting with Weka - Pentaho Data Mining - Pentaho Wiki.
(s.f.). Recuperado el 20 de Noviembre de 2020, de Wiki.pentaho.com:
wiki.pentaho.com/display/DATAMINING/Time+Series+Analysis+and+Forecasting+=
with+Weka
Wei-
<=
![endif]>
PARA
CITAR EL ARTÍCULO INDEXADO.
Paguay
Hurtado, J. A. (2021). Desarrollo de un prototipo para la predicción de nue=
vos
casos de covid-19 en el ecuador mediante el uso de inteligencia artificial . ConcienciaDigital,
4(3.1), 41-52. https://doi.org/10.33262/concienciadigital.v4i3.1.1810
El artículo que se
publica es de exclusiva responsabilidad de los autores y no necesariamente
reflejan el pensamiento de la Revi=
sta Conciencia
Digital.
El artículo qu=
eda
en propiedad de la revista y, por tanto, su publicación parcial y/o total en
otro medio tiene que ser autorizado por el director de la Revista Conciencia Digital.
=
=
[1] Ingeniería de Sistemas,
Universidad Católica de Cuenca, japaguayh26@est.ucacue.edu.ec,
juanandres1435@gmail.com, https://orcid.org/0000-0001-5375-6475
=
=
ISSN: 2600-5859
= Vol. 4, N°3.1, p. 41-52, agosto, 2021