Dataset Viewer
Auto-converted to Parquet Duplicate
audio
audioduration (s)
148
336
name
stringlengths
13
53
url
stringlengths
44
84
artist
stringlengths
2
39
title
stringlengths
5
41
genre
stringclasses
12 values
license_type
stringclasses
13 values
language
stringclasses
4 values
lyric_overlap
bool
2 classes
polyphonic
bool
2 classes
non_lexical
bool
2 classes
text
stringlengths
420
3.23k
lines
listlengths
12
122
words
listlengths
82
640
1_Freak_-_Automatisch_Gekommen
https://www.jamendo.com/track/1435651/1-freak/lyrics
Automatisch Gekommen
1 Freak
Rock
CC BY-NC-ND
de
false
true
false
ich würd' so gerne meinen namen verlier'n das wär' schon okay vollkommen unerkannt durch straßen maschier'n no you don't know me es würde niemand danach fragen was geht alter scheiß auf mein smartphone und ich hätte endlich zeit zu versteh'n ich muss einfach mal klar kommen ich schließ' mich ein und komm' nicht raus ...
[ { "start": 21.7803173065, "end": 24.4506130219, "text": "ich würd' so gerne meinen namen verlier'n" }, { "start": 24.8917922974, "end": 26.3793201447, "text": "das wär' schon okay" }, { "start": 26.538230896, "end": 29.2201366425, "text": "vollkommen unerkannt durch straß...
[ { "start": 21.7803173065, "end": 21.8920631409, "text": "ich", "line_end": false }, { "start": 21.8920631409, "end": 22.0535144806, "text": "würd'", "line_end": false }, { "start": 22.0535144806, "end": 22.1982765198, "text": "so", "line_end": false }, { ...
Bitte_beweg_dich_nicht_-_Bukto
https://www.jamendo.com/track/1538040/bitte-beweg-dich-nicht/lyrics
Bukto
Bitte beweg dich nicht
Rock
CC BY-NC-ND
de
false
true
false
du bist es nicht die so sehr für eine sache brennt dass man sie hinterher vor lauter ruß nicht wiedererkennt du stehst nicht unter strom zumindest nicht permanent auch für die kleinen dinge bleiben dir immer noch ein paar prozent du bist es nicht die gern etwas auf sich beruhen lässt oder die schon bevor das licht ange...
[ { "start": 20.2488880157, "end": 25.5419502258, "text": "du bist es nicht die so sehr für eine sache brennt" }, { "start": 25.6380958557, "end": 30.9812240601, "text": "dass man sie hinterher vor lauter ruß nicht wiedererkennt" }, { "start": 31.7790470123, "end": 36.048980712...
[ { "start": 20.2488880157, "end": 20.5866661072, "text": "du", "line_end": false }, { "start": 20.5866661072, "end": 20.9574604034, "text": "bist", "line_end": false }, { "start": 20.9574604034, "end": 21.2723808289, "text": "es", "line_end": false }, { ...
Burn_Out_Man_-_Abendblau
https://www.jamendo.com/track/761522/burn-out-man/lyrics
Abendblau
Burn Out Man
Rock
CC BY-NC-ND
de
false
false
false
man o man am ende des tages ist noch arbeit übrig wenn andere ihre kinder betten brennt im büro ein licht man sieht dich dort die firma retten die sonst zusammenbricht naja kollege einer muss sich ja drum kümmern es ist noch arbeit übrig du hast's noch nicht geschafft du mußt die welt noch retten sonst wird sie hing...
[ { "start": 3.546122551, "end": 7.2794556618, "text": "man o man am ende des tages ist noch arbeit übrig" }, { "start": 9.4868030548, "end": 13.424036026, "text": "wenn andere ihre kinder betten" }, { "start": 13.9609975815, "end": 17.0782775879, "text": "brennt im büro ei...
[ { "start": 3.546122551, "end": 3.7257142067, "text": "man", "line_end": false }, { "start": 3.7257142067, "end": 3.8008162975, "text": "o", "line_end": false }, { "start": 3.8008162975, "end": 4.0460772514, "text": "man", "line_end": false }, { "start"...
Cafe_Jenseitz_Bebelstraße_-_kangaroo.musique
https://www.jamendo.com/track/61202/cafe-jenseitz-bebelstrasse/lyrics
KANGAROO MUSIQUE
Cafe Jenseitz Bebelstraße
Electronic
CC BY-NC-ND
de
false
false
false
wo gibts den besten milchkaffee himbeer oder roiibusch tee wo gibt es frühstück bis nach zwei cafe jenseitz wo wird man immer nett begrüßt wo tuckt der chef in der kombüse wo sieht man dir gern auf dein teil cafe jenseitz wo dreht man gleich den kopf zurück nur weil ein gast die klinke drückt wo sitzt man gerne auch ...
[ { "start": 47.5784111023, "end": 50.6049880981, "text": "wo gibts den besten milchkaffee" }, { "start": 53.8184127808, "end": 56.5986404419, "text": "himbeer oder roiibusch tee" }, { "start": 59.5098419189, "end": 63.3251686096, "text": "wo gibt es frühstück bis nach zwei...
[ { "start": 47.5784111023, "end": 47.9568252563, "text": "wo", "line_end": false }, { "start": 47.9568252563, "end": 48.3613586426, "text": "gibts", "line_end": false }, { "start": 48.3613586426, "end": 48.7328796387, "text": "den", "line_end": false }, { ...
Da_wurdest_du_geboren_-_Alice_Tlustos_
https://www.jamendo.com/track/805431/da-wurdest-du-geboren/lyrics
Alice Tlustlos
Da wurdest du geboren
Rock
CC BY-NC-ND
de
false
false
false
hoffnungslos im dunkel meines seins raste ich dahin suchte nach dem sinn meines lebens voller angst war ich gefangen suchte nach dem ziel hasste dieses spiel meines lebens wahrheit war mir fremd zu schwer anerkennung galt denn mein herz war kalt ohne liebe jesus da wurdest du geboren licht für meine dunkelheit hoffnun...
[ { "start": 7.719183445, "end": 16.6538772583, "text": "hoffnungslos im dunkel meines seins raste ich dahin" }, { "start": 17.2897968292, "end": 23.1764163971, "text": "suchte nach dem sinn meines lebens" }, { "start": 25.5825843811, "end": 32.4571418762, "text": "voller a...
[ { "start": 7.719183445, "end": 9.1065759659, "text": "hoffnungslos", "line_end": false }, { "start": 9.4334697723, "end": 9.6261224747, "text": "im", "line_end": false }, { "start": 9.6261224747, "end": 10.4261226654, "text": "dunkel", "line_end": false }, ...
Der_Baum_-_Dienstag_is_Damensauna_(2)
https://www.jamendo.com/track/1598831/der-baum/lyrics
Dienstag ist Damensauna
Der Baum
Rock
CC BY-NC-ND
de
false
false
false
wenn ihr so weiter macht verspielt ihr meine zukunft seid ihr doof vor dem küchenfenster steht ein alter baum so alt wie er ist krieg ich das grauen der baum der steht da seit jahren schon lang bevor wir da waren auch wird er nicht vergehn wenn die natur lässt es geschehen der baum braucht nicht viel er will nur übe...
[ { "start": 0.3555555642, "end": 3.389387846, "text": "wenn ihr so weiter macht verspielt ihr meine zukunft" }, { "start": 3.9386847019, "end": 5.23609972, "text": "seid ihr doof" }, { "start": 8.0025396347, "end": 9.6362810135, "text": "vor dem küchenfenster" }, { ...
[ { "start": 0.3555555642, "end": 0.4774603248, "text": "wenn", "line_end": false }, { "start": 0.5612698197, "end": 0.792380929, "text": "ihr", "line_end": false }, { "start": 0.792380929, "end": 0.9110203981, "text": "so", "line_end": false }, { "start...
Der_Musiker_-_d-music
https://www.jamendo.com/track/77932/der-musiker/lyrics
D.
Der Musiker
Hip-Hop
CC BY-NC-SA
de
false
false
false
es ist weit gefehlt dass es immer quält wenn ein musiker schlicht von seinem alltag spricht sei's melancholie oder hysterie wenn ich ehrlich bin hab' ich das nie dieses magische greifen nach der neuen idee was nur möglich sei mit der guten fee ist 'ne ideologie von anfang an und genau besehen ist da gar nichts dran k...
[ { "start": 36.2031745911, "end": 37.2585945129, "text": "es ist weit gefehlt" }, { "start": 37.398639679, "end": 38.3918380737, "text": "dass es immer quält" }, { "start": 38.4961433411, "end": 39.4277534485, "text": "wenn ein musiker schlicht" }, { "start": 39.51...
[ { "start": 36.2031745911, "end": 36.3428573608, "text": "es", "line_end": false }, { "start": 36.3428573608, "end": 36.5224494934, "text": "ist", "line_end": false }, { "start": 36.5224494934, "end": 36.6933326721, "text": "weit", "line_end": false }, { ...
Die_Revolution_gehört_Dir!_-_partysahnen
https://www.jamendo.com/track/49283/die-revolution-gehoert-dir/lyrics
Die Partysahnen
Die Revolution gehört Dir!
Indie
CC BY-NC-SA
de
false
true
false
"weißt du noch damals\nals wir durch die straßen gingen\nweißt du noch damals\nals die revolution(...TRUNCATED)
[{"start":20.4277553558,"end":23.2163257599,"text":"weißt du noch damals"},{"start":23.2685718536,"(...TRUNCATED)
[{"start":20.4277553558,"end":20.6693878174,"text":"weißt","line_end":false},{"start":20.6693878174(...TRUNCATED)
Drei_Nüsse_-_patrouille
https://www.jamendo.com/track/73594/drei-nuesse/lyrics
Patrouille
Drei Nüsse
Pop
CC BY-NC-ND
de
false
true
false
"komm her komm her komm her zu mir\ndu hast drei wünsche frei komm und sag was wünschst du dir\nko(...TRUNCATED)
[{"start":16.4799995422,"end":19.3306121826,"text":"komm her komm her komm her zu mir"},{"start":19.(...TRUNCATED)
[{"start":16.4799995422,"end":16.7339687347,"text":"komm","line_end":false},{"start":16.7339687347,"(...TRUNCATED)
Freifliegen_-_durch.dick.und.duenn
https://www.jamendo.com/track/34276/freifliegen/lyrics
Durch Dick und Dünn
Freifliegen
Rock
CC BY-SA
de
false
false
false
"ich will entfliehen\ndem käfig der mich hält\nlass' dich allein zurück\nfolge dem was mich ruft\(...TRUNCATED)
[{"start":22.6684799194,"end":24.726348877,"text":"ich will entfliehen"},{"start":25.54920578,"end":(...TRUNCATED)
[{"start":22.6684799194,"end":22.9616317749,"text":"ich","line_end":false},{"start":22.9616317749,"e(...TRUNCATED)
End of preview. Expand in Data Studio

JamendoLyrics MultiLang dataset for lyrics research

A dataset containing 79 songs with different genres and languages along with lyrics that are time-aligned on a word-by-word level (with start and end times) to the music.

Note: The dataset is primarily intended as an automatic lyrics alignment (ALA) benchmark. For lyrics transcription, please see the Jam-ALT dataset, which contains a revised version of the lyrics, better suited as a reference for the transcription task. See also the community readme for information about related datasets.

The dataset was introduced in the ICASSP 2023 paper (full citation below):
📄 Similarity-based Audio-Lyrics Alignment of Multiple Languages
👥 Simon Durand, Daniel Stoller, Sebastian Ewert (Spotify)

Usage

The dataset can be loaded using 🤗 Datasets:

from datasets import load_dataset
dataset = load_dataset("jamendolyrics/jamendolyrics", split="test")

A subset is defined for each language (en, fr, de, es); for example, use load_dataset("jamendolyrics/jamendolyrics", "es", split="test") to load only the Spanish songs.

The dataset contains one record per song, with the audio in the audio column. The the text and timing of each line and word can be found in the lines and words columns, respectively; text contains the full lyrics of the song. Other metadata columns such as language are included; see below for more information.

To control how the audio is decoded, cast the audio column using dataset.cast_column("audio", datasets.Audio(...)). Useful arguments to datasets.Audio() are:

  • sampling_rate and mono=True to control the sampling rate and number of channels.
  • decode=False to skip decoding the audio and just get the raw MP3 files.

See this blog post for a guide on audio datasets on Hugging Face.

The dataset can also be downloaded without installing 🤗 Datasets by cloning the Git repository (with Git LFS enabled). To get the annotations and metadata, use either metadata.jsonl, or the CSV and text files described below.

Metadata CSV

All songs are listed in JamendoLyrics.csv together with their metadata. To load annotations you are interested in, you can iterate over this CSV and use the Filepath column to build file paths to files containing the data for each song (audio file, lyrics annotations). Among the metadata, "LyricOverlap" refers to whether or not the lyrics in the song overlap, “Polyphonic” refers to whether or not there are multiple singers singing the same lyrics, but with different melodies, and "NonLexical" refers to whether or not there is non-lexical singing (eg: scatting).

Lyrics files

In the lyrics subfolder, we provide the lyrics to each song as SONG_NAME.txt (normalized, e. g. special characters and characters not supported in vocab/international.characters are removed)

Furthermore, SONG_NAME.words.txt contains all the words, separated by lines, ignoring the paragraph structure of the original lyrics. This is used for the word-level timestamp annotations.

Time-aligned lyrics annotations

We have aligned the lyrics on a word-by-word and line-by-line basis to the music.

Word-by-word start and end timestamps are stored in the "annotations/words" subfolder, and they also indicate whether the word represents the end of a line as well (it will have the word end timestamp set instead of NaN).

A line-by-line version of the lyrics is stored in the subfolder "annotations/lines" as CSV files, denoting the start and end time of each lyrical line in the audio. These contain one row per line in the form of (start_time, end_time, lyrics_line) and can be used to train or evaluate models only on a line-by-line level.

Modifying word-by-word timestamps

In case the word timestamps are modified, one needs to run generate_lines.py to update the line-level timestamp files in "annotations/lines" accordingly. You will need Python 3.10 with packages installed as listed in requirements.txt.

This is because the line-level annotation in "annotations/lines" is auto-generated based on the manual word-by-word annotations: The start timestamp for each line is set to be the start timestamp of the word after an end-of-line word.

In case you find errors in the timestamp annotations, we encourage you to submit a pull request to this repository so we can correct the errors.

The 🤗 dataset (metadata.jsonl)

This dataset has been ported from the original GitHub repo and adapted for Hugging Face Hub.

The Hugging Face version of the dataset is stored as metadata.jsonl files: one for the entire dataset and one for each lanugage subset. The file_name field contains the audio file paths relative to the metadata.jsonl file. These JSONL files were generated from the original CSV and text files using the create_hf_dataset.py script, and need to be re-generated if any modifications are made to the original files.

Acknowledgements

We want to acknowledge our 2022 Research intern, Emir Demirel, and Torr Yatco for their help in assembling this dataset.

Original JamendoLyrics dataset

This dataset is an extended version of the original (English-only) JamendoLyrics dataset presented in the paper
End-to-end Lyrics Alignment for Polyphonic Music Using an Audio-to-Character Recognition Model

It originally contained only 20 English songs and is now deprecated as annotations are slightly improved, so we discourage its use in the future. You can find it archived here.

Citation

@inproceedings{durand-2023-contrastive,
  author={Durand, Simon and Stoller, Daniel and Ewert, Sebastian},
  booktitle={2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages}, 
  year={2023},
  pages={1-5},
  address={Rhodes Island, Greece},
  doi={10.1109/ICASSP49357.2023.10096725}
}
Downloads last month
2,250

Papers for jamendolyrics/jamendolyrics