Datasets:
audio audioduration (s) 148 336 | name stringlengths 13 53 | url stringlengths 44 84 | artist stringlengths 2 39 | title stringlengths 5 41 | genre stringclasses 12
values | license_type stringclasses 13
values | language stringclasses 4
values | lyric_overlap bool 2
classes | polyphonic bool 2
classes | non_lexical bool 2
classes | text stringlengths 420 3.23k | lines listlengths 12 122 | words listlengths 82 640 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1_Freak_-_Automatisch_Gekommen | https://www.jamendo.com/track/1435651/1-freak/lyrics | Automatisch Gekommen | 1 Freak | Rock | CC BY-NC-ND | de | false | true | false | ich würd' so gerne meinen namen verlier'n
das wär' schon okay
vollkommen unerkannt durch straßen maschier'n
no you don't know me
es würde niemand danach fragen was geht
alter scheiß auf mein smartphone
und ich hätte endlich zeit zu versteh'n
ich muss einfach mal klar kommen
ich schließ' mich ein
und komm' nicht raus
... | [
{
"start": 21.7803173065,
"end": 24.4506130219,
"text": "ich würd' so gerne meinen namen verlier'n"
},
{
"start": 24.8917922974,
"end": 26.3793201447,
"text": "das wär' schon okay"
},
{
"start": 26.538230896,
"end": 29.2201366425,
"text": "vollkommen unerkannt durch straß... | [
{
"start": 21.7803173065,
"end": 21.8920631409,
"text": "ich",
"line_end": false
},
{
"start": 21.8920631409,
"end": 22.0535144806,
"text": "würd'",
"line_end": false
},
{
"start": 22.0535144806,
"end": 22.1982765198,
"text": "so",
"line_end": false
},
{
... | |
Bitte_beweg_dich_nicht_-_Bukto | https://www.jamendo.com/track/1538040/bitte-beweg-dich-nicht/lyrics | Bukto | Bitte beweg dich nicht | Rock | CC BY-NC-ND | de | false | true | false | du bist es nicht die so sehr für eine sache brennt
dass man sie hinterher vor lauter ruß nicht wiedererkennt
du stehst nicht unter strom zumindest nicht permanent
auch für die kleinen dinge bleiben dir immer noch ein paar prozent
du bist es nicht die gern etwas auf sich beruhen lässt
oder die schon bevor das licht ange... | [
{
"start": 20.2488880157,
"end": 25.5419502258,
"text": "du bist es nicht die so sehr für eine sache brennt"
},
{
"start": 25.6380958557,
"end": 30.9812240601,
"text": "dass man sie hinterher vor lauter ruß nicht wiedererkennt"
},
{
"start": 31.7790470123,
"end": 36.048980712... | [
{
"start": 20.2488880157,
"end": 20.5866661072,
"text": "du",
"line_end": false
},
{
"start": 20.5866661072,
"end": 20.9574604034,
"text": "bist",
"line_end": false
},
{
"start": 20.9574604034,
"end": 21.2723808289,
"text": "es",
"line_end": false
},
{
... | |
Burn_Out_Man_-_Abendblau | https://www.jamendo.com/track/761522/burn-out-man/lyrics | Abendblau | Burn Out Man | Rock | CC BY-NC-ND | de | false | false | false | man o man am ende des tages ist noch arbeit übrig
wenn andere ihre kinder betten
brennt im büro ein licht
man sieht dich dort die firma retten
die sonst zusammenbricht
naja kollege einer muss sich ja drum kümmern
es ist noch arbeit übrig du hast's noch nicht geschafft
du mußt die welt noch retten sonst wird sie hing... | [
{
"start": 3.546122551,
"end": 7.2794556618,
"text": "man o man am ende des tages ist noch arbeit übrig"
},
{
"start": 9.4868030548,
"end": 13.424036026,
"text": "wenn andere ihre kinder betten"
},
{
"start": 13.9609975815,
"end": 17.0782775879,
"text": "brennt im büro ei... | [
{
"start": 3.546122551,
"end": 3.7257142067,
"text": "man",
"line_end": false
},
{
"start": 3.7257142067,
"end": 3.8008162975,
"text": "o",
"line_end": false
},
{
"start": 3.8008162975,
"end": 4.0460772514,
"text": "man",
"line_end": false
},
{
"start"... | |
Cafe_Jenseitz_Bebelstraße_-_kangaroo.musique | https://www.jamendo.com/track/61202/cafe-jenseitz-bebelstrasse/lyrics | KANGAROO MUSIQUE | Cafe Jenseitz Bebelstraße | Electronic | CC BY-NC-ND | de | false | false | false | wo gibts den besten milchkaffee
himbeer oder roiibusch tee
wo gibt es frühstück bis nach zwei
cafe jenseitz
wo wird man immer nett begrüßt
wo tuckt der chef in der kombüse
wo sieht man dir gern auf dein teil
cafe jenseitz
wo dreht man gleich den kopf zurück
nur weil ein gast die klinke drückt
wo sitzt man gerne auch ... | [
{
"start": 47.5784111023,
"end": 50.6049880981,
"text": "wo gibts den besten milchkaffee"
},
{
"start": 53.8184127808,
"end": 56.5986404419,
"text": "himbeer oder roiibusch tee"
},
{
"start": 59.5098419189,
"end": 63.3251686096,
"text": "wo gibt es frühstück bis nach zwei... | [
{
"start": 47.5784111023,
"end": 47.9568252563,
"text": "wo",
"line_end": false
},
{
"start": 47.9568252563,
"end": 48.3613586426,
"text": "gibts",
"line_end": false
},
{
"start": 48.3613586426,
"end": 48.7328796387,
"text": "den",
"line_end": false
},
{
... | |
Da_wurdest_du_geboren_-_Alice_Tlustos_ | https://www.jamendo.com/track/805431/da-wurdest-du-geboren/lyrics | Alice Tlustlos | Da wurdest du geboren | Rock | CC BY-NC-ND | de | false | false | false | hoffnungslos im dunkel meines seins raste ich dahin
suchte nach dem sinn meines lebens
voller angst war ich gefangen suchte nach dem ziel
hasste dieses spiel meines lebens
wahrheit war mir fremd zu schwer anerkennung galt
denn mein herz war kalt ohne liebe
jesus da wurdest du geboren
licht für meine dunkelheit
hoffnun... | [
{
"start": 7.719183445,
"end": 16.6538772583,
"text": "hoffnungslos im dunkel meines seins raste ich dahin"
},
{
"start": 17.2897968292,
"end": 23.1764163971,
"text": "suchte nach dem sinn meines lebens"
},
{
"start": 25.5825843811,
"end": 32.4571418762,
"text": "voller a... | [
{
"start": 7.719183445,
"end": 9.1065759659,
"text": "hoffnungslos",
"line_end": false
},
{
"start": 9.4334697723,
"end": 9.6261224747,
"text": "im",
"line_end": false
},
{
"start": 9.6261224747,
"end": 10.4261226654,
"text": "dunkel",
"line_end": false
},
... | |
Der_Baum_-_Dienstag_is_Damensauna_(2) | https://www.jamendo.com/track/1598831/der-baum/lyrics | Dienstag ist Damensauna | Der Baum | Rock | CC BY-NC-ND | de | false | false | false | wenn ihr so weiter macht verspielt ihr meine zukunft
seid ihr doof
vor dem küchenfenster
steht ein alter baum
so alt wie er ist
krieg ich das grauen
der baum der steht da seit jahren
schon lang bevor wir da waren
auch wird er nicht vergehn
wenn die natur lässt es geschehen
der baum braucht nicht viel
er will nur übe... | [
{
"start": 0.3555555642,
"end": 3.389387846,
"text": "wenn ihr so weiter macht verspielt ihr meine zukunft"
},
{
"start": 3.9386847019,
"end": 5.23609972,
"text": "seid ihr doof"
},
{
"start": 8.0025396347,
"end": 9.6362810135,
"text": "vor dem küchenfenster"
},
{
... | [
{
"start": 0.3555555642,
"end": 0.4774603248,
"text": "wenn",
"line_end": false
},
{
"start": 0.5612698197,
"end": 0.792380929,
"text": "ihr",
"line_end": false
},
{
"start": 0.792380929,
"end": 0.9110203981,
"text": "so",
"line_end": false
},
{
"start... | |
Der_Musiker_-_d-music | https://www.jamendo.com/track/77932/der-musiker/lyrics | D. | Der Musiker | Hip-Hop | CC BY-NC-SA | de | false | false | false | es ist weit gefehlt
dass es immer quält
wenn ein musiker schlicht
von seinem alltag spricht
sei's melancholie
oder hysterie
wenn ich ehrlich bin
hab' ich das nie
dieses magische greifen
nach der neuen idee
was nur möglich sei
mit der guten fee
ist 'ne ideologie
von anfang an
und genau besehen
ist da gar nichts dran
k... | [
{
"start": 36.2031745911,
"end": 37.2585945129,
"text": "es ist weit gefehlt"
},
{
"start": 37.398639679,
"end": 38.3918380737,
"text": "dass es immer quält"
},
{
"start": 38.4961433411,
"end": 39.4277534485,
"text": "wenn ein musiker schlicht"
},
{
"start": 39.51... | [
{
"start": 36.2031745911,
"end": 36.3428573608,
"text": "es",
"line_end": false
},
{
"start": 36.3428573608,
"end": 36.5224494934,
"text": "ist",
"line_end": false
},
{
"start": 36.5224494934,
"end": 36.6933326721,
"text": "weit",
"line_end": false
},
{
... | |
Die_Revolution_gehört_Dir!_-_partysahnen | https://www.jamendo.com/track/49283/die-revolution-gehoert-dir/lyrics | Die Partysahnen | Die Revolution gehört Dir! | Indie | CC BY-NC-SA | de | false | true | false | "weißt du noch damals\nals wir durch die straßen gingen\nweißt du noch damals\nals die revolution(...TRUNCATED) | [{"start":20.4277553558,"end":23.2163257599,"text":"weißt du noch damals"},{"start":23.2685718536,"(...TRUNCATED) | [{"start":20.4277553558,"end":20.6693878174,"text":"weißt","line_end":false},{"start":20.6693878174(...TRUNCATED) | |
Drei_Nüsse_-_patrouille | https://www.jamendo.com/track/73594/drei-nuesse/lyrics | Patrouille | Drei Nüsse | Pop | CC BY-NC-ND | de | false | true | false | "komm her komm her komm her zu mir\ndu hast drei wünsche frei komm und sag was wünschst du dir\nko(...TRUNCATED) | [{"start":16.4799995422,"end":19.3306121826,"text":"komm her komm her komm her zu mir"},{"start":19.(...TRUNCATED) | [{"start":16.4799995422,"end":16.7339687347,"text":"komm","line_end":false},{"start":16.7339687347,"(...TRUNCATED) | |
Freifliegen_-_durch.dick.und.duenn | https://www.jamendo.com/track/34276/freifliegen/lyrics | Durch Dick und Dünn | Freifliegen | Rock | CC BY-SA | de | false | false | false | "ich will entfliehen\ndem käfig der mich hält\nlass' dich allein zurück\nfolge dem was mich ruft\(...TRUNCATED) | [{"start":22.6684799194,"end":24.726348877,"text":"ich will entfliehen"},{"start":25.54920578,"end":(...TRUNCATED) | [{"start":22.6684799194,"end":22.9616317749,"text":"ich","line_end":false},{"start":22.9616317749,"e(...TRUNCATED) |
JamendoLyrics MultiLang dataset for lyrics research
A dataset containing 79 songs with different genres and languages along with lyrics that are time-aligned on a word-by-word level (with start and end times) to the music.
Note: The dataset is primarily intended as an automatic lyrics alignment (ALA) benchmark. For lyrics transcription, please see the Jam-ALT dataset, which contains a revised version of the lyrics, better suited as a reference for the transcription task. See also the community readme for information about related datasets.
The dataset was introduced in the ICASSP 2023 paper (full citation below):
📄 Similarity-based Audio-Lyrics Alignment of Multiple Languages
👥 Simon Durand, Daniel Stoller, Sebastian Ewert (Spotify)
Usage
The dataset can be loaded using 🤗 Datasets:
from datasets import load_dataset
dataset = load_dataset("jamendolyrics/jamendolyrics", split="test")
A subset is defined for each language (en, fr, de, es);
for example, use load_dataset("jamendolyrics/jamendolyrics", "es", split="test") to load only the Spanish songs.
The dataset contains one record per song, with the audio in the audio column.
The the text and timing of each line and word can be found in the lines and words columns, respectively;
text contains the full lyrics of the song. Other metadata columns such as language are included;
see below for more information.
To control how the audio is decoded, cast the audio column using dataset.cast_column("audio", datasets.Audio(...)).
Useful arguments to datasets.Audio() are:
sampling_rateandmono=Trueto control the sampling rate and number of channels.decode=Falseto skip decoding the audio and just get the raw MP3 files.
See this blog post for a guide on audio datasets on Hugging Face.
The dataset can also be downloaded without installing 🤗 Datasets by
cloning the Git repository (with Git LFS enabled).
To get the annotations and metadata, use either metadata.jsonl, or the CSV and text files described below.
Metadata CSV
All songs are listed in JamendoLyrics.csv together with their metadata.
To load annotations you are interested in, you can iterate over this CSV and use the Filepath
column to build file paths to files containing the data for each song (audio file, lyrics
annotations). Among the metadata, "LyricOverlap" refers to whether or not the lyrics in the song overlap,
“Polyphonic” refers to whether or not there are multiple singers singing the same lyrics, but with different melodies,
and "NonLexical" refers to whether or not there is non-lexical singing (eg: scatting).
Lyrics files
In the lyrics subfolder, we provide the lyrics to each song as SONG_NAME.txt (normalized, e.
g. special characters and characters not supported in vocab/international.characters are removed)
Furthermore, SONG_NAME.words.txt contains all the words, separated by
lines, ignoring the paragraph structure of the original lyrics. This is used for the word-level timestamp annotations.
Time-aligned lyrics annotations
We have aligned the lyrics on a word-by-word and line-by-line basis to the music.
Word-by-word start and end timestamps are stored in the "annotations/words" subfolder, and they also indicate whether the word represents the end of a line as well (it will have the word end timestamp set instead of NaN).
A line-by-line version of the lyrics is stored in the subfolder
"annotations/lines" as CSV files, denoting the start and end time of each lyrical line in the audio.
These contain one row per line in the form of (start_time, end_time, lyrics_line) and can be
used to train or evaluate models only on a line-by-line level.
Modifying word-by-word timestamps
In case the word timestamps are modified, one needs to run generate_lines.py to
update the line-level timestamp files in "annotations/lines" accordingly.
You will need Python 3.10 with packages installed as listed in requirements.txt.
This is because the line-level annotation in "annotations/lines" is auto-generated based on the manual word-by-word annotations: The start timestamp for each line is set to be the start timestamp of the word after an end-of-line word.
In case you find errors in the timestamp annotations, we encourage you to submit a pull request to this repository so we can correct the errors.
The 🤗 dataset (metadata.jsonl)
This dataset has been ported from the original GitHub repo and adapted for Hugging Face Hub.
The Hugging Face version of the dataset is stored as metadata.jsonl files: one for the entire dataset
and one for each lanugage subset. The file_name field contains the audio file paths relative to the
metadata.jsonl file. These JSONL files were generated from the original CSV and text files using the
create_hf_dataset.py script, and need to be re-generated if any modifications
are made to the original files.
Acknowledgements
We want to acknowledge our 2022 Research intern, Emir Demirel, and Torr Yatco for their help in assembling this dataset.
Original JamendoLyrics dataset
This dataset is an extended version of the original (English-only) JamendoLyrics dataset presented in the paper
End-to-end Lyrics Alignment for Polyphonic Music Using an Audio-to-Character Recognition Model
It originally contained only 20 English songs and is now deprecated as annotations are slightly improved, so we discourage its use in the future. You can find it archived here.
Citation
@inproceedings{durand-2023-contrastive,
author={Durand, Simon and Stoller, Daniel and Ewert, Sebastian},
booktitle={2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages},
year={2023},
pages={1-5},
address={Rhodes Island, Greece},
doi={10.1109/ICASSP49357.2023.10096725}
}
- Downloads last month
- 2,250