Content-detection-and-Corpus-Clustering

Nota: este readme ira evolucionado hasta convertirse en parte de la metodología del artículo, informe 
de la asignatura IA y correctitud del informe de SRI

Dado un corpus de comentarios escrito por cubanos de las distintas redes sociales, se podría desarrollar un SRI (Sistema de Recuperación de Información) que sea capas de responder a la pregunta "¿Que piensan/escriben los cubanos sobre _______?" y en principio cualquier modelo clásico o derivado podría ser una opción. Pero, para computar que tan efectivo es el SRI se necesitan corpus de prueba, los cuales ya se encuentran debidamente documentados en cuanto a relevancia respecto a una lista de consultas. En el caso particular del corpus y la pregunta seleccionada, no se cuenta inicialmente con dichos documentos y consultas de prueba. Pero analizando la forma y origen del corpus podemos generalizar que, en su mayoría los documentos del corpus en cuestión son comentarios en respuesta a un tema inicial (publicación inicial), por tanto un conjunto de expertos (humanos, cubanos) determinaron que dichos documentos son relevantes sobre dicho tema, entonces en general podríamos considerar como sistema de pruebas la idea central de la publicación inicial como consulta y sus comentarios de primer nivel como documentos relevantes para dicha consulta. Esa idea inicial podría ser demasiado ajustada, pues no toma en cuenta el resto de comentarios que puedan tener otras publicación sobre el mismo tema. Un mejor banco de prueba sería si agrupamos los comentarios según el tema principal de la publicación inicial y excluimos del grupo a los comentarios fuera de contexto o incoherentes

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Graphics Training Models		Graphics Training Models
temp		temp
tokenizer @ 400f3d9		tokenizer @ 400f3d9
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
README.md		README.md
agglomerative.py		agglomerative.py
dbscan.py		dbscan.py
k_means.py		k_means.py
main.ipynb		main.ipynb
plot_learning_curve.py		plot_learning_curve.py
preprocessing.py		preprocessing.py
select_model.py		select_model.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Content-detection-and-Corpus-Clustering

About

Releases

Packages

Contributors 2

Languages

License

cuban-digital-language/content-detection-and-corpus-clustering

Folders and files

Latest commit

History

Repository files navigation

Content-detection-and-Corpus-Clustering

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages