Fix boolean column handling by unpacking bits and adjusting decompression size

Krmjn09 · Krmjn09 · commit ad5dd961bb63 · 2025-08-19T23:36:59.000+05:30
diff --git a/modules/rntuple.mjs b/modules/rntuple.mjs
@@ -181,6 +181,8 @@ function getTypeByteSize(coltype) {
         case ENTupleColumnType.kByte:
         case ENTupleColumnType.kChar:
             return 1;
+        case ENTupleColumnType.kBit:
+            return 1/8;
         default:
             throw new Error(`Unsupported coltype for byte size: ${coltype} (0x${coltype.toString(16).padStart(2, '0')})`);
     }
@@ -747,87 +749,108 @@ class RNTupleDescriptorBuilder {
         this.pageLocations = clusterPageLocations;
     }
 
-    // Example Of Deserializing Page Content
-    deserializePage(blob, columnDescriptor) {
-        const originalColtype = columnDescriptor.coltype,
-        { coltype } = recontructUnsplitBuffer(blob, columnDescriptor);
-        let { blob: processedBlob } = recontructUnsplitBuffer(blob, columnDescriptor);
+// Example Of Deserializing Page Content
+deserializePage(blob, columnDescriptor) {
+    const originalColtype = columnDescriptor.coltype,
+    { coltype } = recontructUnsplitBuffer(blob, columnDescriptor);
+    let { blob: processedBlob } = recontructUnsplitBuffer(blob, columnDescriptor);
 
-        
-        // Handle split index types
+    
+    // Handle split index types
         if (originalColtype === ENTupleColumnType.kSplitIndex32 || originalColtype=== ENTupleColumnType.kSplitIndex64) {
-            const { blob: decodedArray } = DecodeDeltaIndex(processedBlob, coltype);
-            processedBlob = decodedArray;  
-        }
+        const { blob: decodedArray } = DecodeDeltaIndex(processedBlob, coltype);
+        processedBlob = decodedArray;  
+    }
 
-        // Handle Split Signed Int types
-        if (originalColtype === ENTupleColumnType.kSplitInt16 || originalColtype === ENTupleColumnType.kSplitInt32 || originalColtype === ENTupleColumnType.kSplitInt64) {
-            const { blob: decodedArray } = decodeZigzag(processedBlob, coltype);
-            processedBlob = decodedArray;  
-        }
+    // Handle Split Signed Int types
+    if (originalColtype === ENTupleColumnType.kSplitInt16 || originalColtype === ENTupleColumnType.kSplitInt32 || originalColtype === ENTupleColumnType.kSplitInt64) {
+        const { blob: decodedArray } = decodeZigzag(processedBlob, coltype);
+        processedBlob = decodedArray;  
+    }
 
-        const byteSize = getTypeByteSize(coltype),
-              reader = new RBufferReader(processedBlob),
-              values = [];
+    const byteSize = getTypeByteSize(coltype),
+          reader = new RBufferReader(processedBlob),
+          values = [];
 
-        if (!byteSize)
-            throw new Error('Invalid or unsupported column type: cannot determine byte size');
+    if (!byteSize)
+        throw new Error('Invalid or unsupported column type: cannot determine byte size');
 
-        const numValues = processedBlob.byteLength / byteSize;
+    const numValues = processedBlob.byteLength / byteSize;
 
-        for (let i = 0; i < (numValues ?? processedBlob.byteLength); ++i) {
-            let val;
+    switch (coltype) {
+        case ENTupleColumnType.kBit: {
+            let bitCount = 0;
+            const totalBitsInBuffer = processedBlob.byteLength * 8;
             
-            switch (coltype) {
-                case ENTupleColumnType.kReal64:
-                    val = reader.readF64();
-                    break;
-                case ENTupleColumnType.kReal32:
-                    val = reader.readF32();
-                    break;
-                case ENTupleColumnType.kInt64:
-                    val = reader.readS64();
-                    break;
-                case ENTupleColumnType.kUInt64:
-                    val = reader.readU64();
-                    break;
-                case ENTupleColumnType.kInt32:
-                    val = reader.readS32();
-                    break;
-                case ENTupleColumnType.kUInt32:
-                    val = reader.readU32();
-                    break;
-                case ENTupleColumnType.kInt16:
-                    val = reader.readS16();
-                    break;
-                case ENTupleColumnType.kUInt16:
-                    val = reader.readU16();
-                    break;
-                case ENTupleColumnType.kInt8:
-                    val = reader.readS8();
-                    break;
-                case ENTupleColumnType.kUInt8:
-                case ENTupleColumnType.kByte:
-                    val = reader.readU8();
-                    break;
-                case ENTupleColumnType.kChar:
-                    val = String.fromCharCode(reader.readS8());
-                    break;
-                case ENTupleColumnType.kIndex32:
-                    val = reader.readS32();
-                    break;
-                case ENTupleColumnType.kIndex64:
-                    val = reader.readS64();
-                    break;
-                default:
-                    throw new Error(`Unsupported column type: ${columnDescriptor.coltype}`);
+            for (let byteIndex = 0; byteIndex < processedBlob.byteLength; ++byteIndex) {
+                const byte = reader.readU8();
+                
+                // Extract 8 bits from this byte
+                for (let bitPos = 0; bitPos < 8 && bitCount < totalBitsInBuffer; ++bitPos, ++bitCount) {
+                    const bitValue = (byte >>> bitPos) & 1,
+                    boolValue = bitValue === 1;
+                    values.push(boolValue);
+                }
             }
-            values.push(val);
+            break;
         }
 
-        return values;
+        default: {
+            for (let i = 0; i < (numValues ?? processedBlob.byteLength); ++i) {
+                let val;
+
+                switch (coltype) {
+                    case ENTupleColumnType.kReal64:
+                        val = reader.readF64();
+                        break;
+                    case ENTupleColumnType.kReal32:
+                        val = reader.readF32();
+                        break;
+                    case ENTupleColumnType.kInt64:
+                        val = reader.readS64();
+                        break;
+                    case ENTupleColumnType.kUInt64:
+                        val = reader.readU64();
+                        break;
+                    case ENTupleColumnType.kInt32:
+                        val = reader.readS32();
+                        break;
+                    case ENTupleColumnType.kUInt32:
+                        val = reader.readU32();
+                        break;
+                    case ENTupleColumnType.kInt16:
+                        val = reader.readS16();
+                        break;
+                    case ENTupleColumnType.kUInt16:
+                        val = reader.readU16();
+                        break;
+                    case ENTupleColumnType.kInt8:
+                        val = reader.readS8();
+                        break;
+                    case ENTupleColumnType.kUInt8:
+                    case ENTupleColumnType.kByte:
+                        val = reader.readU8();
+                        break;
+                    case ENTupleColumnType.kChar:
+                        val = String.fromCharCode(reader.readS8());
+                        break;
+                    case ENTupleColumnType.kIndex32:
+                        val = reader.readS32();
+                        break;
+                    case ENTupleColumnType.kIndex64:
+                        val = reader.readS64();
+                        break;
+                    default:
+                        throw new Error(`Unsupported column type: ${columnDescriptor.coltype}`);
+                }
+                values.push(val);
+            }
+        }
     }
 
+    return values;
+}
+
 } // class RNTupleDescriptorBuilder
 
 
@@ -990,22 +1013,46 @@ function readNextCluster(rntuple, selector) {
 
     // Build flat array of [offset, size, offset, size, ...] to read pages
     const dataToRead = pages.flatMap(p =>
-          [Number(p.page.locator.offset), Number(p.page.locator.size)]
-        );
+        [Number(p.page.locator.offset), Number(p.page.locator.size)]
+    );
 
     return rntuple.$file.readBuffer(dataToRead).then(blobsRaw => {
         const blobs = Array.isArray(blobsRaw) ? blobsRaw : [blobsRaw],
-            unzipPromises = blobs.map((blob, idx) => {
-                const { page, colDesc } = pages[idx],
+        unzipPromises = blobs.map((blob, idx) => {
+            const { page, colDesc } = pages[idx],
                     colEntry = builder.pageLocations[clusterIndex][colDesc.index], // Access column entry
-                    numElements = Number(page.numElements),
-                    elementSize = colDesc.bitsOnStorage / 8;
+                numElements = Number(page.numElements),
+                elementSize = colDesc.bitsOnStorage / 8;
+
+            // Check if data is compressed
+            if (colEntry.compression === 0)
+                return Promise.resolve(blob); // Uncompressed: use blob directly
+            const expectedSize = numElements * elementSize;
+
+            // Special handling for boolean fields
+            if (colDesc.coltype === ENTupleColumnType.kBit) {
+                const expectedBoolSize = Math.ceil(numElements / 8);
+                if (blob.byteLength === expectedBoolSize)
+                    return Promise.resolve(blob);
+                // Try decompression but catch errors for boolean fields
+                return R__unzip(blob, expectedBoolSize).catch(err => {
+                    throw new Error(`Failed to unzip boolean page ${idx}: ${err.message}`);
+                });
+            }
 
-                // Check if data is compressed
-                if (colEntry.compression === 0)
-                    return Promise.resolve(blob); // Uncompressed: use blob directly
-                return R__unzip(blob, numElements * elementSize);
+            // If the blob is already the expected size, treat as uncompressed
+            if (blob.byteLength === expectedSize)
+                return Promise.resolve(blob);
+
+            // Try decompression
+            return R__unzip(blob, expectedSize).then(result => {
+                if (!result)
+                    return blob; // Fallback to original blob
+                return result;
+            }).catch(err => {
+                throw new Error(`Failed to unzip page ${idx}: ${err.message}`);
             });
+        });
 
         return Promise.all(unzipPromises).then(unzipBlobs => {
             rntuple._clusterData = {}; // store deserialized data per field
@@ -1028,10 +1075,10 @@ function readNextCluster(rntuple, selector) {
                 // splitting string fields into offset and payload components
                 if (field.typeName === 'std::string') {
                     if (
-                         colDesc.coltype === ENTupleColumnType.kIndex64 ||
-                         colDesc.coltype === ENTupleColumnType.kIndex32 ||
-                         colDesc.coltype === ENTupleColumnType.kSplitIndex64 ||
-                         colDesc.coltype === ENTupleColumnType.kSplitIndex32
+                        colDesc.coltype === ENTupleColumnType.kIndex64 ||
+                        colDesc.coltype === ENTupleColumnType.kIndex32 ||
+                        colDesc.coltype === ENTupleColumnType.kSplitIndex64 ||
+                        colDesc.coltype === ENTupleColumnType.kSplitIndex32
                         ) // Index64/Index32
                         rntuple._clusterData[field.fieldName][0] = values; // Offsets
                     else if (colDesc.coltype === ENTupleColumnType.kChar)