Corpora della lingua italiana

Sottotitolo

Vai a Corpora dell'italiano antico

 

Corpora dell'italiano dell'uso

scritto | parlato | settoriale

 

Corpora dell'italiano scritto

CORIS/CODIS online
Corpus di italiano scritto contemporaneo, ricco di circa 100 milioni di parole. Elaborato e prodotto dal Centro Interfacoltà di Linguistica Teorica e Applicata (CILTA) Luigi Heilmann dell'Università di Bologna, prevede una licenza per l'accesso alla versione completa.

 

Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)
Il corpus di riferimento è costituito da testi tratti da quotidiani del periodo 1992 - 1994 (La Repubblica, La Stampa, Il Corriere della Sera), periodici e libri, considerando anche i libri letti per motivi scolastici o professionali. Consta di 3.150.075 ricorrenze lessicali. Al progetto partecipano i seguenti soggetti: Scuola Normale Superiore (Pisa), Istituto di Scienze e Tecnologie della Cognizione del CNR (Roma), Università di Salerno, Istituto di Linguistica Computazionale, Unità Staccata di Genova del CNR, Università de L'Aquila.

 

Dizionario italiano multimediale e multilingue d'Ortografia e di Pronunzia della RAI (DOP)
Versione online del vocabolario redatto a partire dal 1959 da Bruno Migliorini, Carlo Tagliavini e Piero Fiorelli, riveduto e accresciuto da P. Fiorelli e T. F. Borri, per la sede fiorentina della RAI, ora disponibile in versione multimediale. Il corpus, ricco di oltre 92.000 voci di lessico della lingua italiana e oltre 37.000 di una sessantina di lingue diverse, presenta anche la registrazione fonetica delle voci.

 

la Repubblica Corpus
Corpus molto ampio (circa 380mila parole) del lessico del quotidiano la Repubblica. Nel progetto, curato dall'Università di Bologna, il corpus è stato lemmatizzato, indicizzato e categorizzato per genere e tema; gli articoli nel corpus sono strutturati nelle seguenti parti: titolo, sottotitolo, sommario, testo.

 

 

Corpora dell'italiano parlato

Archivio del Parlato Italiano (API)
Progetto coordinato da Federico Albano Leoni cui hanno partecipato la Scuola Normale Superiore di Pisa, il CIRASS e il Dip. di Neuroscienze dell'Università "Federico II" di Napoli, l'Istituto Universitario Orientale di Napoli, il Politecnico di Bari, l'Università del Piemonte Orientale, l'Università "Ca' Foscari" di Venezia e l'Università di Pisa.
Il corpus, raccolto in tre città italiane (Napoli, Bari, Pisa), consiste essenzialmente di dialoghi map task e comprende anche un campione di parlato infantile di bambini sordi e normoudenti.

 

AVIP-API
Progetto coordinato da Pier Marco Bertinetto (Scuola Normale Superiore di Pisa) cui hanno partecipato la Scuola Normale, il CIRASS e il Dipatimento di Neuroscienze dell'Università "Federico II" di Napoli, l'Istituto Universitario Orientale di Napoli e il Politecnico di Bari. Sostanzialmente contiene lo stesso corpus del progetto API, che ne amplia lo spettro d'indagine, il campione e gli enti partecipanti.

 

Corpora e Lessici di Italiano Parlato e Scritto (CLIPS)
Ampio progetto coordinato da Federico Albano Leoni (CIRASS - Napoli) cui hanno partecipato l'Università "Federico II" di Napoli, la Scuola Normale Superiore, la Fondazione Bordoni di Roma e l' Istituto Superiore Poste e Telecomunicazioni (ora ISCOM). Autori ne sono F. A. Leoni, F. Cutugno e R Savy.
Pubblicato nel 2006, contiene circa 100 ore di italiano parlato di varie tipologie suddiviso in 5 sottocorpora (radiotelevisivo, dialogico, letto, ortofonico, telefonico). Attraverso un'indagine sociolinguistica preliminare sul territorio italiano, sono state selezionate 15 città dove sono stati raccolti i materiali per la costituzione del corpus.
Accesso diretto al corpus.

 

Grammo-foni. Le soffitte della voce (Gra.Fo)
Grammo-foni censisce, raccoglie, digitalizza, trascrive materiale sonoro raccolto dagli anni '60 ad oggi da studiosi, appassionati, cultori di dialetti e tradizioni popolari sul territorio toscano. Il progetto è stato condotto dalla Scuola Normale Superiore e dall'Università degli Studi di Siena, finanziato dalla Regione Toscana.

 

Lessico di frequenza dell'Italiano Parlato (LIP)
Il corpus LIP, ospitato sul sito della Banca Dati dell'Italiano Parlato (BaDIP), è la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica. Costituito nel 1990-1992 da un gruppo di linguisti diretto da Tullio De Mauro, serví per costruire il primo lessico di frequenza dell' italiano parlato. I suoi 469 testi, contenenti complessivamente ca. 490.000 parole, furono raccolti in quattro città (Milano, Firenze, Roma e Napoli) e provengono da cinque macroclassi e numerose sottoclassi di discorso.
Accesso diretto all'interfaccia di ricerca dei lemmi.

 

Corpora dell'italiano settoriale

Lessico di frequenza dell'Italiano Radiofonico (LIR)
Progetto finalizzato alla realizzazione di Lessici di frequenza dell'italiano radiofonico (LIR), coordinato da Nicoletta Maraschio e Stefania Stefanelli presso il Centro di Studi di Grammatica Italiana dell'Accademia della Crusca.
Il progetto prevede che l'intero corpus, trascritto e "in voce" (circa 50 ore di parlato corrispondenti a circa 500.000 occorrenze lessicali), sia allegato al vocabolario su CD-ROM.
Nessuno strumento online e' al momento disponibile.

LinguaGiovani
Progetto sul Linguaggio giovanile a cura del Dip.to di Romanistica dell'Univ. degli Studi di Padova e coordinato dal Prof. M. Cortelazzo. Il progetto, che si pone l'obiettivo di coordinare le ricerche sul tema e di raccogliere materiali editi ed inediti, prevede anche la creazione di un dizionario online di termini tratti dal linguaggio giovanile acquisti tramite segnalazioni spontanee online.

 

Corpora dell'italiano antico

Archivio Datini
Corpus lemmatizzato, a cura dell'Opera del Vocabolario Italiano, del carteggio di Francesco Datini (1335-1410) composto da quasi 150.000 lettere e completo di commento in cui sono inseriti rimandi alle note editoriali.

Archivio Digitale Veneto: biblioteca online dei testi veneti dalle origini al XVIII secolo
Corpus di testi letterari veneti antichi, con particolare attenzione verso il pavano, prodotti tra il Duecento e l'inizio del Seicento, in edizioni filologicamente e linguisticamente attendibili. Il progetto è curato dall'Università di Padova, ricade sotto la responsabilità di Ivano Paccagnella e Andrea Cecchinato, e prevede numerose e autorevoli collaborazioni di altri studiosi. Questa banca dati permette la lettura integrale di testi, di cui fornisce anche schede introduttive, bibliografia, dati cronologici e l’interrogazione dei testi grazie a un motore di ricerca creato da L. Tessarolo.

 

ARchivio TEstuale del SIciliano Antico (ARTESIA)
Questo corpus fa parte del più ampio ampio Progetto Artesia, articolato strumento di studio sul siciliano medievale.
Fanno parte del corpus testi di diverse tipologie, appartenenti ad un arco cronologico compreso tra gli inizi del XIV secolo, periodo a cui risalgono i primi testi in volgare siciliano, e la prima metà del XVI, periodo in cui il siciliano è progressivamente sostituito dal toscano come lingua della comunicazione pubblica.
Progetto coordinato da Mario Pagano.

 

Corpus dei Classici LAtini VOlgarizzati (CLAVO)
La banca dati CLAVO raccoglie i classici latini tradotti dai volgarizzamenti compresi nel corpus DiVo (DIzionario dei VOlgarizzamenti) e rende interrogabili poco meno di 100 testi di latino tradotto. Al testo latino è associato paragrafo per paragrafo il testo volgare. Progetto a cura della Scuola Normale Superiore di Pisa e dell'Opera del Vocabolario Italiano.

 

Corpus Epistolare Ottocentesco Digitale (CEOD)
Corpus epistolare costituito da circa 1350 lettere quasi interamente inedite di 75 scriventi diversi, di varia estrazione sociale, che documentano una notevole escursione, negli argomenti, nella provenienza geografica e nel livello socio-culturale degli scriventi. Progetto coordinato da Massimo Palermo.

 

Corpus OVI dell'italiano antico
Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano (OVI), ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. Consente di scaricare brevi citazioni per uso di ricerca ma è vietato scaricare i testi. Direzione scientifica di Pär Larson, Elena Artale e Diego Dotto.

 

Corpus ReMediA - REpertorio di MEDIcina Antica
Corpus di testi medico-scientifici (in particolare trattati medici varii, chirurgie e ricettari) nelle diverse lingue romanze o in volgarizzamenti dal latino, curato da Elena Artale e Ilaria Zamuner.

 

Corpus Taurinense : an old Italian corpus
Raccolta di testi fiorentini del XIII secolo, ordinata per lemmi, parti del discorso, genere letterario e forme filologiche. Direzione scientifica di Manuel Barbera e Carla Marello.

 

Morfologia dell'Itaiano in DIAcronia (MIDIA) 
Corpus di testi scritti in lingua italiana che si estende dall'inizio del XIII alla prima metà del XX secolo. Comprende oltre 7 milioni di occorrenze tratte da circa 800 testi. Realizzato grazie al progetto Prin 2009 "La storia della formazione delle parole in italiano" finanziato dal MIUR, MIDIA offre strumenti di ricerca che permettono agevoli estrazioni di dati, utili in particolare per lo studio della formazione delle parole in italiano dal punto di vista diacronico ma fruibili anche per diverse altre tipologie di indagine linguistica.

 

Tesoro della lingua italiana delle origini (TLIO)
Versione online del noto vocabolario storico dell'italiano curato dall' Opera del Vocabolario Italiano (OVI), istituto del Consiglio Nazionale delle Ricerche con sede presso l'Accademia della Crusca di Firenze. La versione online, ricca di oltre 12000 voci, si basa sul corpus testuale dell'italiano antico dell'OVI. Questa banca dati testuale offre efficaci strumenti di ricerca, compresa un'interfaccia per il reperimento di voci/forme/redattori/definizioni presenti nel corpus, un database contenente i dati bibliografici degli autori citati, la bibliografia citata nelle voci e altri dati.