A percepção de profundidade humana dos vídeos estéreo 3D depende da separação da câmera, ponto de convergência, distância e familiaridade do objeto. Este artigo apresenta um método robotizado para coleta rápida e confiável de dados de teste durante a cirurgia de coração aberto ao vivo para determinar a configuração ideal da câmera.
O vídeo estéreo 3D de procedimentos cirúrgicos pode ser altamente valioso para a educação médica e melhorar a comunicação clínica. Mas o acesso à sala de cirurgia e ao campo cirúrgico é restrito. É um ambiente estéril, e o espaço físico está lotado de equipe cirúrgica e equipamentos técnicos. Neste cenário, a captura não obscurecido e a reprodução realista dos procedimentos cirúrgicos são difíceis. Este artigo apresenta um método para coleta rápida e confiável de dados de vídeos 3D estereoscópicos a diferentes distâncias de linha de base da câmera e distâncias de convergência. Para coletar dados de teste com interferência mínima durante a cirurgia, com alta precisão e repetibilidade, as câmeras foram anexadas a cada mão de um robô de braço duplo. O robô estava montado no teto da sala de cirurgia. Foi programado para realizar uma sequência cronometrada de movimentos sincronizados da câmera passando por uma gama de posições de teste com distância de linha de base entre 50-240 mm em etapas incrementais de 10 mm, e a duas distâncias de convergência de 1100 mm e 1400 mm. A cirurgia foi pausada para permitir 40 amostras de vídeo 5 s consecutivas. Foram registrados 10 cenários cirúrgicos.
Na cirurgia, a visualização 3D pode ser usada para educação, diagnósticos, planejamento pré-operatório e avaliação pós-operatória1,2. A percepção de profundidade realista pode melhorar a compreensão3,4,5,6 de anatomias normais e anormais. Gravações simples de vídeo 2D de procedimentos cirúrgicos são um bom começo. No entanto, a falta de percepção de profundidade pode dificultar que os colegas não cirúrgicos compreendam plenamente as relações antero-posteriores entre diferentes estruturas anatômicas e, portanto, também introduzem um risco de má interpretação da anatomia7,8,9,10.
A experiência de visualização 3D é afetada por cinco fatores: (1) A configuração da câmera pode ser paralela ou toed-in como mostrado na Figura 1, (2) Distância da linha de base (a separação entre as câmeras). (3) Distância até o objeto de interesse e outras características da cena, como o fundo. (4) Características de dispositivos de visualização, como tamanho da tela e posição de visualização1,11,12,13. (5) Preferências individuais dos telespectadores14,15.
A concepção de uma configuração de câmera 3D começa com a captura de vídeos de teste gravados em várias distâncias e configurações da linha de base da câmera para serem usados para avaliação subjetiva ou automática16,17,18,19,20. A distância da câmera deve ser constante ao campo cirúrgico para capturar imagens nítidas. O foco fixo é preferido porque o foco automático se ajustará para focar em mãos, instrumentos ou cabeças que possam vir à vista. No entanto, isso não é facilmente alcançável quando a cena de interesse é o campo cirúrgico. As salas de cirurgia são áreas de acesso restrito porque essas instalações devem ser mantidas limpas e estéreis. Equipamentos técnicos, cirurgiões e enfermeiros de limpeza são frequentemente agrupados ao redor do paciente para garantir uma boa visão visual e um fluxo de trabalho eficiente. Para comparar e avaliar o efeito das posições da câmera na experiência de visualização 3D, uma faixa completa de teste de posições da câmera deve estar registrando a mesma cena porque as características do objeto, como forma, tamanho e cor, podem afetar a experiência de visualização 3D21.
Pelo mesmo motivo, as faixas completas de teste de posições da câmera devem ser repetidas em diferentes procedimentos cirúrgicos. Toda a sequência de posições deve ser repetida com alta precisão. Em um ambiente cirúrgico, os métodos existentes que requerem ajuste manual da distância da linha de base22 ou diferentes pares de câmeras com distâncias fixas da linha de base23 não são viáveis devido a restrições de espaço e tempo. Para enfrentar esse desafio, esta solução robotizada foi projetada.
Os dados foram coletados com um robô industrial colaborativo de braço duplo montado no teto da sala de cirurgia. As câmeras foram anexadas aos pulsos do robô e moveram-se ao longo de uma trajetória em forma de arco com crescente distância de linha de base, como mostrado na Figura 2.
Para demonstrar a abordagem, foram registradas 10 séries de testes de 4 pacientes diferentes com 4 defeitos cardíacos congênitos diferentes. As cenas foram escolhidas quando uma pausa na cirurgia era viável: com os corações batendo pouco antes e depois do reparo cirúrgico. Séries também foram feitas quando os corações foram presos. As cirurgias foram pausadas por 3 minutos e 20 s para coletar quarenta 5-ssequences com diferentes distâncias de convergência de câmera e distâncias de linha de base para capturar a cena. Os vídeos foram posteriormente pós-processados, exibidos em 3D para a equipe clínica, que classificou o quão realista o vídeo 3D foi ao longo de uma escala de 0-5.
O ponto de convergência para câmeras estéreo toed-in é onde os pontos centrais de ambas as imagens se encontram. O ponto de convergência pode, por princípio, ser colocado na frente, dentro ou atrás do objeto, ver a Figura 1A-C. Quando o ponto de convergência estiver na frente do objeto, o objeto será capturado e exibido à esquerda da linha média para a imagem da câmera esquerda e à direita da linha média para a imagem da câmera direita (Figura 1A). O oposto se aplica quando o ponto de convergência está atrás do objeto (Figura 1B). Quando o ponto de convergência estiver no objeto, o objeto também aparecerá na linha média das imagens da câmera (Figura 1C), o que, presumivelmente, deve render a visualização mais confortável, já que nenhum squinting é necessário para mesclar as imagens. Para obter um vídeo estéreo 3D confortável, o ponto de convergência deve estar localizado sobre, ou ligeiramente atrás, do objeto de interesse, senão o espectador é obrigado a olhar voluntariamente para fora (exotropia).
Os dados foram coletados utilizando um robô industrial colaborativo de braço duplo para posicionar as câmeras (Figura 2A-B). O robô pesa 38 kg sem equipamento. O robô é intrinsecamente seguro; quando detecta um impacto inesperado, ele pára de se mover. O robô foi programado para posicionar as câmeras de 5 Megapixels com lentes de montagem C ao longo de uma trajetória em forma de arco parando em distâncias de linha de base predeterminadas (Figura 2C). As câmeras foram anexadas às mãos do robô usando placas adaptadoras, como mostrado na Figura 3. Cada câmera gravada a 25 quadros por segundo. As lentes foram definidas em f-stop 1/8 com foco fixo no objeto de interesse (centro geométrico aproximado do coração). Cada quadro de imagem tinha um cronô de tempo que era usado para sincronizar as duas transmissões de vídeo.
Os deslocamentos entre o pulso do robô e a câmera foram calibrados. Isso pode ser alcançado alinhando a mira das imagens da câmera, como mostrado na Figura 4. Nesta configuração, o deslocamento translacional total do ponto de montagem no pulso do robô e o centro do sensor de imagem da câmera foi de 55,3 mm na direção X e 21,2 mm na direção Z, exibido na Figura 5. Os deslocamentos rotacionais foram calibrados a uma distância de convergência de 1100 mm e uma distância de linha de base de 50 mm e ajustado manualmente com o joystick no painel de controle do robô. O robô neste estudo teve uma precisão especificada de 0,02 mm no espaço cartesiano e 0,01 graus de resolução rotacional24. Num raio de 1100 m, uma diferença de ângulo de 0,01 graus compensa o ponto central de 0,2 mm. Durante o movimento completo do robô de 50-240 mm de separação, a mira de cada câmera estava dentro de 2 mm do centro ideal de convergência.
A distância da linha de base foi aumentada passo a passo pela separação simétrica das câmeras ao redor do centro do campo de visão em incrementos de 10 mm que variam de 50-240 mm (Figura 2). As câmeras foram mantidas paradas por 5 s em cada posição e movidas entre as posições a uma velocidade de 50 mm/s. O ponto de convergência pode ser ajustado nas direções X e Z usando uma interface gráfica de usuário (Figura 6). O robô seguiu de acordo dentro de seu alcance de trabalho.
A precisão do ponto de convergência foi estimada utilizando-se os triângulos uniformes e os nomes variáveis nas Figuras 7A e B. A altura ‘z’ foi calculada a partir da distância de convergência ‘R’ com o teorema pitagórico como
Quando o ponto de convergência real estava mais próximo do ponto desejado, como mostrado na Figura 7A, a distância de erro ‘f1‘ foi calculada como
Da mesma forma, quando o ponto de convergência foi distal ao ponto desejado, a distância de erro ‘f2‘ foi calculada como
Aqui, ‘e’ foi a separação máxima entre as miras, no máximo 2 mm na separação máxima da linha de base durante a calibração (D = 240 mm). Para R = 1100 mm (z = 1093 mm), o erro foi inferior a ± 9,2 mm. Para R = 1400 mm (z = 1395 mm), o erro foi ± 11,7 mm. Ou seja, o erro da colocação do ponto de convergência foi dentro de 1% do desejado. As duas distâncias de teste de 1100 mm e 1400 mm foram, portanto, bem separadas.
Durante a cirurgia ao vivo, o tempo total do experimento utilizado para coleta de dados de vídeo 3D limitou-se a ser seguro para o paciente. Se o objeto não estiver desconcentrado ou superexposto, os dados não poderão ser usados. As etapas críticas são durante a calibração e configuração da ferramenta da câmera (etapa 2). A abertura e o foco da câmera não podem ser alterados quando a cirurgia começou; as mesmas condições de iluminação e distância devem ser utilizadas durante a configuração e cirurgia…
The authors have nothing to disclose.
A pesquisa foi realizada com financiamento da Vinnova (2017-03728, 2018-05302 e 2018-03651), Fundação Coração-Pulmão (20180390), Fundação Família Kamprad (20190194) e Fundação Anna-Lisa e Sven Eric Lundgren (2017 e 2018).
2 C-mount lenses (35 mm F2.1, 5 M pixel) | Tamron | M112FM35 | Rated for 5 Mpixel |
3D glasses (DLP-link active shutter) | Celexon | G1000 | Any compatible 3D glasses can be used |
3D Projector | Viewsonic | X10-4K | Displays 3D in 1080, can be exchanged for other 3D projectors |
6 M2 x 8 screws | To attach the cXimea cameras to the camera adaptor plates | ||
8 M2.5 x 8 screws | To attach the circular mounting plates to the robot wrist | ||
8 M5 x 40 screws | To mount the robot | ||
8 M6 x 10 screws with flat heads | For attaching the circular mounting plate and the camera adaptor plates | ||
Calibration checker board plate (25 by 25 mm) | Any standard checkerboard can be used, including printed, as long as the grid is clearly visible in the cameras | ||
Camera adaptor plates, x2 | Designed by the authors in robot_camera_adaptor_plates.dwg, milled in aluminium. | ||
Circular mounting plates, x2 | Distributed with the permission of the designer Julius Klein and printed with ABS plastic on an FDM 3D printer. License Tecnalia Research & Innovation 2017. Attached as Mountingplate_ROBOT_SIDE_ NewDesign_4.stl |
||
Fix focus usb cameras, x2 (5 Mpixel) | Ximea | MC050CG-SY-UB | With Sony IMX250LQR sensor |
Flexpendant | ABB | 3HAC028357-001 | robot touch display |
Liveview | recording application | ||
RobotStudio | robot integrated development environment (IDE) | ||
USB3 active cables (10.0 m), x2 | Thumbscrew lock connector, water proofed. | ||
YuMi dual-arm robot | ABB | IRB14000 |