More tests for SQL Dataset

Summary: I forgot to include these tests to D45086611 when transferring code from pixar_replay repo. They test the new ORM types used in SQL dataset and are SQL Alchemy 2.0 specific. An important test for extending types is a proof of concept for generality of SQL Dataset. The idea is to extend FrameAnnotation and FrameData in parallel. Reviewed By: bottler Differential Revision: D45529284 fbshipit-source-id: 2a634e518f580c312602107c85fc320db43abcf5
2025-12-20 06:10:34 +08:00 · 2023-05-04 03:32:27 -07:00
parent 178a7774d4
commit 3e3644e534
2 changed files with 267 additions and 0 deletions
--- a/tests/implicitron/test_extending_orm_types.py
+++ b/tests/implicitron/test_extending_orm_types.py
@@ -0,0 +1,230 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the BSD-style license found in the
 # LICENSE file in the root directory of this source tree.
 import dataclasses
 import logging
 import os
 import tempfile
 import unittest
 from typing import ClassVar, Optional, Type
 import pandas as pd
 import pkg_resources
 import sqlalchemy as sa
 from pytorch3d.implicitron.dataset import types
 from pytorch3d.implicitron.dataset.frame_data import FrameData, GenericFrameDataBuilder
 from pytorch3d.implicitron.dataset.orm_types import (
    SqlFrameAnnotation,
    SqlSequenceAnnotation,
 )
 from pytorch3d.implicitron.dataset.sql_dataset import SqlIndexDataset
 from pytorch3d.implicitron.dataset.utils import GenericWorkaround
 from pytorch3d.implicitron.tools.config import registry
 from sqlalchemy.orm import composite, Mapped, mapped_column, Session
 NO_BLOBS_KWARGS = {
    "dataset_root": "",
    "load_images": False,
    "load_depths": False,
    "load_masks": False,
    "load_depth_masks": False,
    "box_crop": False,
 }
 DATASET_ROOT = pkg_resources.resource_filename(__name__, "data/sql_dataset")
 METADATA_FILE = os.path.join(DATASET_ROOT, "sql_dataset_100.sqlite")
 logger = logging.getLogger("pytorch3d.implicitron.dataset.sql_dataset")
 sh = logging.StreamHandler()
 logger.addHandler(sh)
 logger.setLevel(logging.DEBUG)
@dataclasses.dataclass
 class MagneticFieldAnnotation:
    path: str
    average_flux_density: Optional[float] = None
 class ExtendedSqlFrameAnnotation(SqlFrameAnnotation):
    num_dogs: Mapped[Optional[int]] = mapped_column(default=None)
    magnetic_field: Mapped[MagneticFieldAnnotation] = composite(
        mapped_column("_magnetic_field_path", nullable=True),
        mapped_column("_magnetic_field_average_flux_density", nullable=True),
        default_factory=lambda: None,
    )
 class ExtendedSqlIndexDataset(SqlIndexDataset):
    frame_annotations_type: ClassVar[
        Type[SqlFrameAnnotation]
    ] = ExtendedSqlFrameAnnotation
 class CanineFrameData(FrameData):
    num_dogs: Optional[int] = None
    magnetic_field_average_flux_density: Optional[float] = None
@registry.register
 class CanineFrameDataBuilder(
    GenericWorkaround, GenericFrameDataBuilder[CanineFrameData]
 ):
    """
    A concrete class to build an extended FrameData object
    """
    frame_data_type: ClassVar[Type[FrameData]] = CanineFrameData
    def build(
        self,
        frame_annotation: ExtendedSqlFrameAnnotation,
        sequence_annotation: types.SequenceAnnotation,
        load_blobs: bool = True,
    ) -> CanineFrameData:
        frame_data = super().build(frame_annotation, sequence_annotation, load_blobs)
        frame_data.num_dogs = frame_annotation.num_dogs or 101
        frame_data.magnetic_field_average_flux_density = (
            frame_annotation.magnetic_field.average_flux_density
        )
        return frame_data
 class CanineSqlIndexDataset(SqlIndexDataset):
    frame_annotations_type: ClassVar[
        Type[SqlFrameAnnotation]
    ] = ExtendedSqlFrameAnnotation
    frame_data_builder_class_type: str = "CanineFrameDataBuilder"
 class TestExtendingOrmTypes(unittest.TestCase):
    def setUp(self):
        # create a temporary copy of the DB with an extended schema
        engine = sa.create_engine(f"sqlite:///{METADATA_FILE}")
        with Session(engine) as session:
            extended_annots = [
                ExtendedSqlFrameAnnotation(
                    **{
                        k: v
                        for k, v in frame_annot.__dict__.items()
                        if not k.startswith("_")  # remove mapped fields and SA metadata
                    }
                )
                for frame_annot in session.scalars(sa.select(SqlFrameAnnotation))
            ]
            seq_annots = session.scalars(
                sa.select(SqlSequenceAnnotation),
                execution_options={"prebuffer_rows": True},
            )
            session.expunge_all()
        self._temp_db = tempfile.NamedTemporaryFile(delete=False)
        engine_ext = sa.create_engine(f"sqlite:///{self._temp_db.name}")
        ExtendedSqlFrameAnnotation.metadata.create_all(engine_ext, checkfirst=True)
        with Session(engine_ext, expire_on_commit=False) as session_ext:
            session_ext.add_all(extended_annots)
            for instance in seq_annots:
                session_ext.merge(instance)
            session_ext.commit()
        # check the setup is correct
        with engine_ext.connect() as connection_ext:
            df = pd.read_sql_query(
                sa.select(ExtendedSqlFrameAnnotation), connection_ext
            )
            self.assertEqual(len(df), 100)
            self.assertIn("_magnetic_field_average_flux_density", df.columns)
            df_seq = pd.read_sql_query(sa.select(SqlSequenceAnnotation), connection_ext)
            self.assertEqual(len(df_seq), 10)
    def tearDown(self):
        self._temp_db.close()
        os.remove(self._temp_db.name)
    def test_basic(self, sequence="cat1_seq2", frame_number=4):
        dataset = ExtendedSqlIndexDataset(
            sqlite_metadata_file=self._temp_db.name,
            remove_empty_masks=False,
            frame_data_builder_FrameDataBuilder_args=NO_BLOBS_KWARGS,
        )
        self.assertEqual(len(dataset), 100)
        # check the items are consecutive
        past_sequences = set()
        last_frame_number = -1
        last_sequence = ""
        for i in range(len(dataset)):
            item = dataset[i]
            if item.frame_number == 0:
                self.assertNotIn(item.sequence_name, past_sequences)
                past_sequences.add(item.sequence_name)
                last_sequence = item.sequence_name
            else:
                self.assertEqual(item.sequence_name, last_sequence)
                self.assertEqual(item.frame_number, last_frame_number + 1)
            last_frame_number = item.frame_number
        # test indexing
        with self.assertRaises(IndexError):
            dataset[len(dataset) + 1]
        # test sequence-frame indexing
        item = dataset[sequence, frame_number]
        self.assertEqual(item.sequence_name, sequence)
        self.assertEqual(item.frame_number, frame_number)
        with self.assertRaises(IndexError):
            dataset[sequence, 13]
    def test_extending_frame_data(self, sequence="cat1_seq2", frame_number=4):
        dataset = CanineSqlIndexDataset(
            sqlite_metadata_file=self._temp_db.name,
            remove_empty_masks=False,
            frame_data_builder_CanineFrameDataBuilder_args=NO_BLOBS_KWARGS,
        )
        self.assertEqual(len(dataset), 100)
        # check the items are consecutive
        past_sequences = set()
        last_frame_number = -1
        last_sequence = ""
        for i in range(len(dataset)):
            item = dataset[i]
            self.assertIsInstance(item, CanineFrameData)
            self.assertEqual(item.num_dogs, 101)
            self.assertIsNone(item.magnetic_field_average_flux_density)
            if item.frame_number == 0:
                self.assertNotIn(item.sequence_name, past_sequences)
                past_sequences.add(item.sequence_name)
                last_sequence = item.sequence_name
            else:
                self.assertEqual(item.sequence_name, last_sequence)
                self.assertEqual(item.frame_number, last_frame_number + 1)
            last_frame_number = item.frame_number
        # test indexing
        with self.assertRaises(IndexError):
            dataset[len(dataset) + 1]
        # test sequence-frame indexing
        item = dataset[sequence, frame_number]
        self.assertIsInstance(item, CanineFrameData)
        self.assertEqual(item.sequence_name, sequence)
        self.assertEqual(item.frame_number, frame_number)
        self.assertEqual(item.num_dogs, 101)
        with self.assertRaises(IndexError):
            dataset[sequence, 13]
--- a/tests/implicitron/test_orm_types.py
+++ b/tests/implicitron/test_orm_types.py
@@ -0,0 +1,37 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
 # All rights reserved.
 #
 # This source code is licensed under the BSD-style license found in the
 # LICENSE file in the root directory of this source tree.
 import unittest
 import numpy as np
 from pytorch3d.implicitron.dataset.orm_types import TupleTypeFactory
 class TestOrmTypes(unittest.TestCase):
    def test_tuple_serialization_none(self):
        ttype = TupleTypeFactory()()
        output = ttype.process_bind_param(None, None)
        self.assertIsNone(output)
        output = ttype.process_result_value(output, None)
        self.assertIsNone(output)
    def test_tuple_serialization_1d(self):
        for input_tuple in [(1, 2, 3), (4.5, 6.7)]:
            ttype = TupleTypeFactory(type(input_tuple[0]), (len(input_tuple),))()
            output = ttype.process_bind_param(input_tuple, None)
            input_hat = ttype.process_result_value(output, None)
            self.assertEqual(type(input_hat[0]), type(input_tuple[0]))
            np.testing.assert_almost_equal(input_hat, input_tuple, decimal=6)
    def test_tuple_serialization_2d(self):
        input_tuple = ((1.0, 2.0, 3.0), (4.5, 5.5, 6.6))
        ttype = TupleTypeFactory(type(input_tuple[0][0]), (2, 3))()
        output = ttype.process_bind_param(input_tuple, None)
        input_hat = ttype.process_result_value(output, None)
        self.assertEqual(type(input_hat[0][0]), type(input_tuple[0][0]))
        # we use float32 to serialise
        np.testing.assert_almost_equal(input_hat, input_tuple, decimal=6)