Oddbean new post about | logout
 Lex Fridman的播客经常会采访一些大牛,搜到个Kaggle上的数据集,有300多期访谈CSV文件。
https://t.co/sHNLx6neMx

下载后让Claude写个Python程序生成300个txt文件,传到notebookLM使用。

生成文件Python代码:

import csv
import os
import sys

# 增加CSV字段大小限制
csv.field_size_limit(sys.maxsize)

def create_txt_files_from_csv(csv_file_path):
    # 确保输出目录存在
    output_dir = 'output_txt_files'
    os.makedirs(output_dir, exist_ok=True)
    
    # 读取CSV文件
    with open(csv_file_path, 'r', newline='', encoding='utf-8') as csvfile:
        csv_reader = csv.DictReader(csvfile)
        
        # 遍历CSV的每一行
        for row in csv_reader:
            # 获取title和text
            title = row['title']
            text = row['text']
            
            # 创建安全的文件名(移除不允许的字符)
            safe_title = "".join([c for c in title if c.isalpha() or c.isdigit() or c==' ']).rstrip()
            
            # 如果文件名为空,使用id作为文件名
            if not safe_title:
                safe_title = f"file_{row['id']}"
            
            # 创建文件路径
            file_path = os.path.join(output_dir, f"{safe_title}.txt")
            
            # 写入文本文件
            with open(file_path, 'w', encoding='utf-8') as txtfile:
                txtfile.write(text)
            
            print(f"Created file: {file_path}")

# 使用函数
csv_file_path = 'podcastdata_dataset.csv'  # 替换为你的CSV文件路径
create_txt_files_from_csv(csv_file_path) https://pbs.twimg.com/media/GWG4KwPbsAA-Df4.jpg https://pbs.twimg.com/media/GWG4YyvasAAUD8N.jpg https://pbs.twimg.com/media/GWG4eS2bMAAcqE-.jpg