Bases de Datos

Lista de bases de datos open-source en español.


NombreTareasDominioIdiomasPaísesPágina WebGitHubPaperHugging Face HubGracias A
BasCrawl
modelado del lenguaje
general
euskera
España
-
-
-
David Arias
Biomedical Spanish CBOW Word Embeddings in Floret
modelado del lenguaje
clinico
español
España
-
-
David Arias
CSIC Spanish Corpus
modelado del lenguaje
academico
español
España
-
-
-
David Arias
Catalonia Independence Corpus
clasificación de sentimientos
rrss
catalán - español
España
Lewis Tunstall @Hugging Face
HEAD-QA
preguntas de opción múltiple
clinico
español
España
María Grandury
InfoLibros Corpus
modelado del lenguaje
literatura
español
Varios
-
-
-
David Arias
Large Spanish Corpus
modelado del lenguaje
general
español
Varios
-
Lewis Tunstall @Hugging Face
Mucho Cine
clasificación de sentimientos
general
español
Varios
-
-
Nick Doiron
Spanish Billion Words
modelado del lenguaje
general
español
Varios
-
-
María Grandury
Spanish Biomedical Crawled Corpus
modelado del lenguaje
clinico
español
España
-
-
David Arias
Spanish CBOW Word Embeddings in FastText
modelado del lenguaje
general
español
España
-
-
David Arias
Spanish CBOW Word Embeddings in Floret
modelado del lenguaje
general
español
España
-
-
-
David Arias
Spanish Legal Domain Corpora
modelado del lenguaje
legal
español
España
-
David Arias
Spanish Legal Domain Word & Sub-Word Embeddings
modelado del lenguaje
legal
español
España
-
David Arias
Spanish Skip-Gram Word Embeddings in FastText
modelado del lenguaje
general
español
España
-
-
David Arias
TDX Thesis Spanish Corpus
modelado del lenguaje
academico
catalán - español
España
-
-
-
David Arias
WikiCorpus
modelado del lenguaje / POS (Part of Speech)
general
catalán - español - inglés
Varios
-
Albert Villanova @Hugging Face
eHealth-KD
reconocimiento de entidades nombradas (NER)
clinico
es
España
María Grandury

¡Ayúdanos a recolectar bases de datos de todas las variedades del español! Participa en nuestra iniciativa #HackCorpusES y contribuye a la lista 🚀