Lint datasets/

fsschneider · fsschneider · commit 4424f7d3402e · 2025-06-23T10:57:14.000+02:00
diff --git a/datasets/librispeech_preprocess.py b/datasets/librispeech_preprocess.py
@@ -4,16 +4,15 @@
 
 import multiprocessing.dummy
 import os
-from os.path import exists
 import sys
 import threading
 import time
 
-from absl import logging
 import numpy as np
 import pandas as pd
-from pydub import AudioSegment
 import tensorflow as tf
+from absl import logging
+from pydub import AudioSegment
 
 from datasets import librispeech_tokenizer
 
@@ -84,8 +83,8 @@ def process(index):
       return utterance_ids
 
     with open(trans_file, 'r', encoding='UTF-8') as f:
-      for l in f:
-        utt, trans = l.strip().split(' ', maxsplit=1)
+      for line in f:
+        utt, trans = line.strip().split(' ', maxsplit=1)
         audio_path = (
           f'{data_folder}/{speaker_folder}/{chapter_folder}/{utt}.flac'
         )
diff --git a/datasets/librispeech_tokenizer.py b/datasets/librispeech_tokenizer.py
@@ -8,10 +8,10 @@
 import tempfile
 from typing import Dict
 
-from absl import logging
 import sentencepiece as spm
 import tensorflow as tf
 import tensorflow_text as tftxt
+from absl import logging
 
 gfile = tf.io.gfile
 copy = tf.io.gfile.copy
@@ -41,8 +41,8 @@ def dump_chars_for_training(data_folder, splits, maxchars: int = int(1e7)):
             logging.info('path does not exist -> %s', trans_file)
             continue
           with open(trans_file, 'r', encoding='UTF-8') as f:
-            for l in f:
-              _, line = l.strip().split(' ', maxsplit=1)
+            for lines in f:
+              _, line = lines.strip().split(' ', maxsplit=1)
               line = line + '\n'
               char_count += len(line)
               if char_count > maxchars: