Live 3D Reconstruction on Mobile Phones - ETH E

DISS. ETH NO. 23309
Live 3D Reconstruction on Mobile Phones
A thesis submitted to attain the degree of
DOCTOR OF SCIENCES of ETH Zürich
(Dr. sc. ETH Zürich)
presented by
Petri Tanskanen
MSc ETH in Computer Science
ETH Zürich
born 03.04.1984
citizen of Berikon AG and Finland
accepted on the recommendation of
Prof. Marc Pollefeys
Prof. Otmar Hilliges
Prof. Margarita Chli
2016
Abstract
This thesis presents a system for mobile devices with a single camera and an inertial measurement unit that allows to create dense 3D
models. The whole process is interactive, the reconstruction is incrementally computed during the scanning process and the user gets
direct feedback of the progress. The system lls the gap in currently
existing cloud-based mobile reconstruction services by giving the user
a preview directly on the phone without having to upload the images
to a server. The on-device reconstruction enables new applications
where it is not desirable to send the raw images to a remote server
due to security or privacy reasons. In addition, since the system is
actively analyzing the scanning process, it can use the inertial sensor
data to estimate the objects real-world absolute scale. This is not
possible by only processing the images on a server.
A novel visual inertial odometry algorithm that uses the Extended
Kalman Filter framework to directly fuse image intensity values with
the inertial measurements to estimate the camera motion is proposed.
The fusion at this low level combines the advantages of the high accuracy from direct photometric error minimization with the robustness
to fast motions when using inertial sensors. Thanks to the constrained
model of the lter, it is possible to track scenes where other approaches
using external correspondence algorithms will fail. The method works
on a sparse set of image areas and can be eciently implemented on
mobile devices.
iii
An ecient point cloud fusion algorithm is proposed that is based
on a condence weight computed from photometric and geometric
properties to accurately combine depth measurements from dierent
viewpoints into a consistent point cloud model. Thereby, visibility
conicts are detected and corrected and the measurements are then
averaged by using their their condence scores as weight. The complete system is demonstrated to be working on various objects and in
dierent environments and future applications are proposed.
iv
Zusammenfassung
In dieser Arbeit wird ein System für die Erstellung dichter 3D-Modelle
auf einem Mobilgerät mit einer einzelnen Kamera und Inertial-Sensoren
beschrieben. Der gesamte Prozess ist interaktiv, die 3D Rekonstruktion wird inkrementell während dem Scannen berechnet und dem Benutzer direkt als Feedback dargestellt. Das System füllt die Lücke
bei bereits existierenden Cloud-basierten Rekonstruktionsdiensten für
Smartphones, indem es dem Benutzer sofort eine Vorschau auf dem
Gerät anzeigt, ohne die Bilder vorher auf einen Server hochladen zu
müssen. Die Rekonstruktion auf dem Gerät ermöglicht neue Anwendungen, bei denen es aus Sicherheitsgründen oder wegen dem Schutz
der Privatssphäre nicht erwünscht ist, die Rohbilder an einen fremden
Computer zu senden. Dank dem direkten Verarbeiten aller Daten auf
dem Gerät während dem Scannen, kann das System die Inertialsensordaten benutzen um die absolute Grösse des eingescanntes Objekts
zu berechnen. Dies ist nur durch die alleinige Analyse der Bilder auf
einem Server gar nicht möglich.
Ein neuer Algorithmus für Visual Inertial Odometry wird vorgeschlagen, welches das Extended Kalman Filter Framework benutzt, um die
Intensitätswerte eines Bildes mit den Inertialsensormessungen zu fusionieren. Das Verknüpfen der Daten auf diesem Level ermöglicht es,
die Vorteile der Genauigkeit der photometrischen Optimierung und
der Robustheit gegenüber schnellen Bewegungen durch die Verwendung der Inertialdaten zu kombinieren. Durch die inherenten math-
v
ematischen Bedingungen im Modell des Filters funktioniert der Algorithmus in Umgebungen, in denen andere Systeme, die externe
Correspondence-Algorithmen benutzen, versagen. Die vorgestelle Methode benutzt nur kleine Teile des Bildes für die Berechnungen und kann
deswegen ezient auf einem mobilen Gerät implementiert werden.
Ein ezienter Algorithmus für die Fusion von Punktwolken wird
be- schrieben. Die Methode benutzt Kondenzwerte basierend auf
photometrischen und geometrischen Eigenschaften, um die berechneten Tiefenwerte aus mehreren Blickwinkeln zu einem konsistenten
Modell zu fusionieren. Dabei werden Sichtbarkeitskonikte erkannt
und aufgelöst und die Messungen anschliessend, mit der Kondenz
gewichtet, gemittelt. Die Funktionsfähigkeit des kompletten Systems
wird durch erfolgreiche 3D Scans von unterschiedlichen Objekten in
verschiedenen Umgebungen demonstriert und zukünftige Anwendungen vorgeschlagen.
vi