Ja, der 32-Bitter braucht dafür wesentlich mehr Zyklen, und Befehle für 128 Bits hat er eventuell gar nicht (viele CPUs können Werte mit einer Größe über ihrer nativen Wortbreite behandeln, mit verringerter Geschwindigkeit).
Nur sind solche Fälle abseits von speziellen Anwendungen recht selten. Dafür hat 64-Bit mehr Overhead; ein einfacher "int" in C wird in 64x0/1 übersetzt, auch wenn der tatsächliche Wert gar nicht so groß ist. Dann werden da halt zusätzliche Nullen herumgeschaufelt. Das kostet Zeit und macht die Binärdateien größer.
Bei der Umstellung von i386 auf amd64 habe ich das damals unter Linux ausgiebig getestet. 32 Bit mit PAE und 8 GB RAM war mit Ausnahme einiger weniger großer Anwendungen schneller.
Bei einem aktuellen Telefon ist es schon sehr zweifelhaft, ob sich der Schritt auf 64-Bit merklich positiv auswirkt. Zukunftssicherer ist es natürlich.