Corpora della lingua italiana

Questa pagina non viene più mantenuta correntemente; puoi trovare un quadro aggiornato dei corpora della lingua italiana nella pagina del catalogo dedicata alle banche dati di questo tipo

Vai ai corpora dell'italiano antico

Corpora dell'italiano dell'uso

Corpora dell'italiano scritto

CORIS/CODIS online
Corpus di italiano scritto ricco di circa 100 milioni di lemmi; il motore di ricerca permette di limitare la ricerca a predefiniti corpus (narrativa, saggistica, quotidiani, periodici, linguaggio giuridico) e a specifici segmenti cronologici. Elaborato e prodotto da R. Rossini Favretti (Università di Bologna) nel 1998, prevede una licenza per l'accesso alla versione completa.

Dizionario italiano multimediale e multilingue d'Ortografia e di Pronunzia della RAI (DOP)
Versione online del vocabolario redatto a partire dal 1959 da Bruno Migliorini, Carlo Tagliavini e Piero Fiorelli, riveduto e accresciuto da P. Fiorelli e T. F. Borri, per la sede fiorentina della RAI, ora disponibile in versione multimediale. Il corpus, ricco di oltre 92.000 voci di lessico della lingua italiana e oltre 37.000 di una sessantina di lingue diverse, presenta anche la registrazione fonetica delle voci.

la Repubblica Corpus
Corpus molto ampio (circa 380mila parole) del lessico del quotidiano la Repubblica. Nel progetto, curato dall'Università di Bologna, il corpus è stato lemmatizzato, indicizzato e categorizzato per genere e tema; gli articoli nel corpus sono strutturati nelle seguenti parti: titolo, sottotitolo, sommario, testo.

Corpora dell'italiano parlato

KIParla
Corpus di italiano parlato; raccoglie oltre 100 ore di conversazioni in italiano registrate a Bologna e Torino, trascritte e allineate con l’audio. L’interfaccia di ricerca permette di filtrare i risultati in base a parametri sociodemografici, come età, genere, città di provenienza e titolo di studio.

VoLIP
IL VoLIP (acronimo di VOce del LIP, Lessico di frequenza dell'Italiano Parlato), permette di interrogare il corpus LIP sia secondo criteri sociolinguistici sia secondo criteri lessicali e morfo-sintattici. Il corpus LIP, composto da circa 500.000 occorrenze di parole per circa 60 ore di registrazione raccolte nei primi anni ’90, costituisce la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica.

Corpora dell'italiano antico

Archivio Datini
Corpus lemmatizzato, a cura dell'Opera del Vocabolario Italiano, del carteggio di Francesco Datini (1335-1410) composto da quasi 150.000 lettere e completo di commento in cui sono inseriti rimandi alle note editoriali.

Archivio digitale veneto: biblioteca online dei testi veneti dalle origini al XVIII sec.
Questo corpus di testi letterari veneti antichi, il cui progetto ricade sotto la responsabilità di Ivano Paccagnella e Andrea Cecchinato (Dipartimento di Studi Linguistici e Letterari dell'Università degli Studi di Padova), prevede numerose e autorevoli collaborazioni di altri studiosi. La banca dati permette la lettura integrale di testi di cui fornisce anche schede introduttive, bibliografia, dati cronologici e l’interrogazione dei testi grazie a un motore di ricerca avanzato che consente di reperire edizioni filologicamente e linguisticamente attendibili di alcuni importanti autori della letteratura veneta tra i quali Ruzante e Andrea Calmo.

ARchivio TEstuale del SIciliano Antico (ARTESIA)
Questo corpus fa parte del più ampio ampio Progetto Artesia, articolato strumento di studio sul siciliano medievale.
Fanno parte del corpus testi di diverse tipologie, appartenenti ad un arco cronologico compreso tra gli inizi del XIV secolo, periodo a cui risalgono i primi testi in volgare siciliano, e la prima metà del XVI, periodo in cui il siciliano è progressivamente sostituito dal toscano come lingua della comunicazione pubblica.
Progetto coordinato da Mario Pagano.

Corpus dei Classici LAtini VOlgarizzati (CLAVO)
La banca dati CLAVO raccoglie i classici latini tradotti dai volgarizzamenti compresi nel corpus DiVo (DIzionario dei VOlgarizzamenti) e rende interrogabili poco meno di 100 testi di latino tradotto. Al testo latino è associato paragrafo per paragrafo il testo volgare. Progetto a cura della Scuola Normale Superiore di Pisa e dell'Opera del Vocabolario Italiano.

Corpus Epistolare Ottocentesco Digitale (CEOD)
Corpus epistolare costituito da circa 1350 lettere quasi interamente inedite di 75 scriventi diversi, di varia estrazione sociale, che documentano una notevole escursione, negli argomenti, nella provenienza geografica e nel livello socio-culturale degli scriventi. Progetto coordinato da Massimo Palermo.

Corpus OVI dell'italiano antico
Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano (OVI), ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. Consente di scaricare brevi citazioni per uso di ricerca ma è vietato scaricare i testi. Direzione scientifica di Pär Larson, Elena Artale e Diego Dotto.

Corpus ReMediA - REpertorio di MEDIcina Antica
Corpus di testi medico-scientifici (in particolare trattati medici varii, chirurgie e ricettari) nelle diverse lingue romanze o in volgarizzamenti dal latino, curato da Elena Artale e Ilaria Zamuner.

Corpus Taurinense: an old Italian corpus
Raccolta di testi fiorentini del XIII secolo, ordinata per lemmi, parti del discorso, genere letterario e forme filologiche. Direzione scientifica di Manuel Barbera e Carla Marello.

Morfologia dell'Italiano in DIAcronia (MIDIA)
Corpus di testi scritti in lingua italiana che si estende dall'inizio del XIII alla prima metà del XX secolo. Comprende oltre 7 milioni di occorrenze tratte da circa 800 testi. Realizzato grazie al progetto Prin 2009 "La storia della formazione delle parole in italiano" finanziato dal MIUR, MIDIA offre strumenti di ricerca che permettono agevoli estrazioni di dati, utili in particolare per lo studio della formazione delle parole in italiano dal punto di vista diacronico ma fruibili anche per diverse altre tipologie di indagine linguistica.

Tesoro della lingua italiana delle origini (TLIO)
Versione online del noto vocabolario storico dell'italiano curato dall'Opera del Vocabolario Italiano (OVI), istituto del Consiglio Nazionale delle Ricerche con sede presso l'Accademia della Crusca di Firenze. La versione online, ricca di oltre 12000 voci, si basa sul corpus testuale dell'italiano antico dell'OVI. Questa banca dati testuale offre efficaci strumenti di ricerca, compresa un'interfaccia per il reperimento di voci/forme/redattori/definizioni presenti nel corpus, un database contenente i dati bibliografici degli autori citati, la bibliografia citata nelle voci e altri dati.

Collezioni primario

Corpora della lingua italiana

Corpora dell'italiano dell'uso

Corpora dell'italiano scritto

Corpora dell'italiano parlato

Corpora dell'italiano antico