Kredit:CC0 Public Domain
Stylometri - brugen af statistiske teknikker til at bestemme forfatterskab - er bedst kendt for at identificere Unabomber som Theodor Kaczynski og afsløre, at Shakespeare samarbejdede med Christopher Marlowe om Henry IV-legecyklussen. I tekstanalyse, det er ikke det usædvanlige ordvalg, der forråder den skjulte stemme, men det sædvanlige - de tilbagevendende mønstre af almindelige ord, såsom præpositioner, som markerer den sandsynlige identitet af én person alene.
Det var en gensidig Beatles-lidenskab – opdaget på en konference på Prince Edward Island – der førte til, at Mark Glickman, lektor i statistik ved Harvard, og Jason Brown, professor i matematik ved Dalhousie University, at spekulere på, om en stilometrisk tilgang kunne besvare det brændende spørgsmål:Lennon eller McCartney?
Som Glickman forklarer, for de fleste Lennon-McCartney-sange, det er velkendt og veldokumenteret, hvem af de to der har skrevet sangen. Imidlertid, et overraskende stort antal sange (eller dele af sange) har bestridt forfatterskabet. Som et eksempel, ingen ved, hvem der har skrevet musikken til "In My Life, "et nummer fra albummet Rubber Soul fra 1965, som er rangeret 23 på Rolling Stones The 500 Greatest Songs of All Time. Både Lennon og McCartney huskede forskelligt. "Så, vi spekulerede på, om du kunne bruge dataanalyseteknikker til at forsøge at finde ud af, hvad der foregik i sangen for at skelne, om det var af den ene eller den anden, " siger Glickman.
Med hjælp fra tidligere Harvard-statistikstuderende Ryan Song, Glickman og Brown "dekomponerede" hver Beatles-sang fra 1962 til 1966 til fem repræsentationer. Hver repræsentation bestod af hyppigheden af forekomsten af et sæt musikalske træk inden for hver sang. "Grundtanken bag vores tilgang, " siger Glickman, "er at konvertere en sang, hvis musikalske indhold er svært at kvantificere på nogen direkte måde, ind i et sæt af forskellige datastrukturer, der er tilgængelige for at etablere en signatur af en sang ved hjælp af en kvantitativ tilgang." Glickman fortsætter, "Tænk på at nedbryde en farve til dens bestanddele af rød, grøn og blå med forskellige vægte påsat. Vi gør det samme med Beatles-sange, dog med mere end tre komponenter. I alt, vores metode opdeler sange i i alt 149 bestanddele."
"Den første repræsentation består simpelthen af frekvenserne af forskellige almindeligt spillede akkorder, sammen med sammenlægninger af ualmindelige akkorder, " siger Glickman. "Vi var i stand til at danne 11 akkordkategorier." Derefter, de karakteriserede melodiske toner - toner sunget af forsangeren. Tredje, de registrerede frekvenserne for forekomsten af akkordovergange, det er, en akkord efterfulgt af en anden akkord. Igen, visse ualmindelige akkordovergange blev samlet i enkelte kategorier. Fjerde, de indspillede frekvenserne af på hinanden følgende melodiske nodepar.
Og så, endelig, de dekomponerede sange til "konturer" med fire melodiske toner. En kontur, siger Glickman, er en melodisk sekvens med fire toner, kategoriseret i en række "ups, " "nedgange" og "forbliver de samme." Med andre ord, hvis en melodisk passage med fire toner involverer fire toner, der stiger i tonehøjde, så ville konturen være ("op, " "op" "op"), fordi hvert på hinanden følgende tonepar involverer en stigning i tonehøjde. Undersøgelse af fire toner konturer, siger Glickman, tilføjer ekstra detaljer, der kan hjælpe med at skelne stilarter af melodisk komposition.
Grunden til, at disse fem repræsentationer kan tjene som signaturer af forskellige musikalske kompositionsstilarter, er fordi, som Glickman påpeger, der er noget velkendt ved Beatles' sangskrivningsstile:Lennon skrev typisk melodiske linjer, der ikke varierede meget.
"Tænk på Lennon-sangen, 'Hjælp!'" siger Glickman. "Det går i bund og grund, 'Da jeg var yngre, så meget yngre end i dag, ' hvor banen ikke ændrer sig ret meget. Det bliver ved den samme tone gentagne gange, og kun ændres i korte trin. Mens med Paul McCartney, du tager en sang som 'Michelle, ' og det går, 'Michelle, ma belle. Sont les mots qui vont très bien ensemble.' Med hensyn til tonehøjde, det er over det hele."
Deres tilgang til at udlede ukendt eller omstridt forfatterskab ud fra musikalske træk kan forstås i tre trin. Først, deres model hævder, at hver af frekvenserne af de 149 musikalske indslag i en sang afhænger af sangens forfatter. For eksempel, "tonicen" (grundakkorden i en sang) antages at forekomme med én frekvens i Lennon-sange, men en muligvis anden frekvens i McCartney-sange. Sekund, de bruger et almindeligt værktøj i sandsynlighed kaldet "Bayes regel" for at vende sandsynligheden. Med andre ord, begyndende med frekvensen af de 149 musikalske indslag ved at kende en sangs forfatter, de bestemmer en model for sandsynligheden for, at Lennon eller McCartney skrev en sang givet frekvensen af de 149 musikalske indslag. Denne model blev derefter trænet ved hjælp af 70 Lennon-McCartney-sange eller sangdele, hvor forfatterskabet virkelig var kendt. Endelig, som et tredje skridt, resultaterne af denne model blev anvendt på Lennon-McCartney-sange og sangdele, hvor forfatterskabet var bestridt, hvilket resulterede i sandsynlighedsforudsigelser for sangene af ukendt forfatterskab.
"Så, sandsynligheden for, at 'In My Life' er skrevet af McCartney er .018, " siger Glickman, "hvilket dybest set betyder, at det er ret overbevisende en Lennon-sang." McCartney husker forkert. Men "Ordet, "som Glickman troede var sikker på at være en Lennon-sang viste sig, efter deres model, at være næsten sikkert af McCartney.
Er der mere ved denne øvelse end en sjov musical whodunnit? "Ja, " siger Glickman. "Denne teknologi kan udvides. Vi kan se på pophistorien og kortlægge strømmen af stilistisk indflydelse."