CEPLEXicon

ID:

ELRA-L0094

CEPLEXicon is a lexicon based on two different corpora of child speech – Santos corpus (Santos, 2006, Santos et al., 2014, see http://www.clul.ul.pt/resources/546?lang=en) and Freitas corpus (Freitas, 1997, Freitas et al. 2012). This lexicon results from the automatic tagging of the two corpora, using a tagger and the POS tag set produced in the research unit ANAGRAMA (Centro de Linguística da Universidade de Lisboa - CLUL) (Généreux, Hendrickx & Mendes, 2012). The automatic tagging was followed by a partial manual revision (as described in the manual).

This lexicon covers all the speech produced by seven monolingual Portuguese children aged 1;02.00 to 3;11.12, in a total of 114 files, each corresponding to 40-50 minutes of child-adult interaction in a naturalistic setting. The lexicon is presented in .xls format and includes 2201 lemmas, the number of occurrences of each lemma in three different age periods (<2 years of age; &#8805; 2 and < 3 years of age; &#8805; 3 years of age), frequency of the lemma in each period and age of first occurrence for each child.

CEPLEXicon was developed at ANAGRAMA (CLUL, Faculdade de Letras da Universidade de Lisboa), under the project Complement Clauses in the Acquisition of Portuguese (PTDC/CLE-LIN/120897/2010), funded by Fundação para a Ciência e Tecnologia.

View resource description in all available languages

CEPLEXicon est un lexique basé sur deux corpus différents de parole d’enfants – le corpus Santos (Santos, 2006, Santos et al., 2014, voir http://www.clul.ul.pt/resources/546?lang=en) et le corpus Freitas (Freitas, 1997, Freitas et al. 2012). Ce lexique résulte d’un étiquetage automatique des deux corpus, au moyen d’un étiqueteur et d’un ensemble d’étiquettes POS produits par l’unité de recherche ANAGRAMA (Centro de Linguística da Universidade de Lisboa - CLUL) (Généreux, Hendrickx & Mendes, 2012). L’étiquetage automatique a été suivi par une révision manuelle partielle (et décrite dans le manuel accompagnant le lexique).

Ce lexique couvre toute la parole produite par sept enfants portugais monolingues, âgés de 1 an et 2 mois à 3 ans, 11 mois et 12 jours, pour un total de 114 fichiers, chaque fichier correspondant à 40-50 minutes d’interaction enfant-adulte dans un contexte naturel. Le lexique est présenté au format .xls et comprend 2201 lemmes, les nombre d’occurrences de chaque lemme en trois périodes d’âges différentes (<2 ans; &#8805; 2 et < 3 ans; &#8805; 3 ans), la fréquence du lemme pour chaque période d’âge et l’âge de la première occurrence pour chaque enfant.

CEPLEXicon a été développé à ANAGRAMA (CLUL, Faculdade de Letras da Universidade de Lisboa), dans le cadre du projet “Complement Clauses in the Acquisition of Portuguese” (PTDC/CLE-LIN/120897/2010), financé par la Fundação para a Ciência e Tecnologia.

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: