Danish SpeechDat(M) database - DB2

View resource name in all available languages

Base de données SpeechDat(M) du danois DB2

ID:

ELRA-S0041

The (polyphone-like) Danish SpeechDat(M) database contains the recordings of 1,523 Danish speakers from 11 regions.

Speech samples are stored as sequences of 8 bit 8 kHz A-law. Each prompted utterance is stored in a separate file, and the associated label files are stored in SAM file format.

Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information. It was validated by SPEX (the Netherlands) to assess its compliance with the SpeechDat format and content specifications.

The lexicon is presented in a TAB delimited ASCII file containing an alphabetically ordered list of distinct lexical items occurring in the database. Each entry contains a frequency count and corresponding pronunciation information.

Example:
WORD FREQUENCY PHONEMIC TRANSCRIPTIONS
åbnede 104 O b n @ D | O b n @ D @
adresseangivelse 97 a d R a s @ a n g i: u l s @

The complete Danish SpeechDat database is partitioned into 5 CD-ROMs. The first three CD-ROMs contain the application oriented sub-set. The last two CD-ROMs contain the phonetically rich sentences.

Each speaker uttered the following items:

* 5 semi-spontaneous application word phrases
* 12 connected digit strings with 8 digits
* 24 natural numbers (3-4 digits)
* 27 application words
* 3 dates, including a spontaneous one e.g. birthday
* 3 spelled words
* 2 money amounts, including a small one, and a large one
* 1 spontaneous city name
* 3 spontaneous yes/no questions
* 22-25 sentences
* 2 time phrases, including a time phrase and a spontaneous time of day

The 5 age groups are the following: under 16, 16-30, 31-45, 46-60, over 60. 78% of the speakers are between 16 and 60 years old.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données SpeechDat(M) du danois est une base de données orale collectée dans le cadre du projet SpeechDat(M) (similaire aux autres bases de données Polyphone) et enregistrée par 1 523 locuteurs.
Les signaux de parole sont enregistrés en loi-A (8 bits, 8 kHz). Les fichiers sont au format SAM.
Un fichier ASCII séparé présente une liste d'informations concernant chaque locuteur : code du locuteur, sexe, âge, région, etc.
Le lexique est présenté dans un autre fichier ASCII délimité par des tabulations et contenant une liste alphabétique des éléments lexicaux distincts apparaissant dans la base. Chaque entrée contient la fréquence et les prononciations correspondantes.
Exemple:

MOT FREQUENCE TRANSCRIPTIONS PHONEMIQUES
åbnede 104 O b n @ D | O b n @ D @
adresseangivelse 97 a d R a s @ a n g i: u l s @

La base complète est composée de 5 CD-ROM. Les trois premiers CD-ROM contiennent les mots de commandes, orientés vers des applications. Les deux derniers CD-ROM contiennent les phrases phonétiquement riches.
Les éléments sont :

* 5 mots de commande inclus dans des phrases (semi spontané),
* 12 séquences de 8 chiffres connectés,
* 24 nombres entiers naturels (3-4 chiffres),
* 27 mots d'application,
* 3 dates dont une spontanée (anniversaire),
* 3 mots épelés,
* 2 montants (argent) dont une petite somme et une grosse,
* nom de ville (spontané),
* 3 questions oui/non (spontané),
* 22-25 phrases,
* une phrase comportant une notion de temps et une l'heure de la journée (spontané).

La base compte 1 523 locuteurs de 11 régions linguistiques du Danemark et de 5 groupes d'âge différents (moins de 16 ans, 16-30 ans, 31-45 ans, 46-60 ans, plus de 60 ans). 78% d'entre eux ont entre 16 et 60 ans.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.