Lex Fridman的播客经常会采访一些大牛,搜到个Kaggle上的数据集,有300多期访谈CSV文件。
https://t.co/sHNLx6neMx
下载后让Claude写个Python程序生成300个txt文件,传到notebookLM使用。
生成文件Python代码:
import csv
import os
import sys
# 增加CSV字段大小限制
csv.field_size_limit(sys.maxsize)
def create_txt_files_from_csv(csv_file_path):
# 确保输出目录存在
output_dir = 'output_txt_files'
os.makedirs(output_dir, exist_ok=True)
# 读取CSV文件
with open(csv_file_path, 'r', newline='', encoding='utf-8') as csvfile:
csv_reader = csv.DictReader(csvfile)
# 遍历CSV的每一行
for row in csv_reader:
# 获取title和text
title = row['title']
text = row['text']
# 创建安全的文件名(移除不允许的字符)
safe_title = "".join([c for c in title if c.isalpha() or c.isdigit() or c==' ']).rstrip()
# 如果文件名为空,使用id作为文件名
if not safe_title:
safe_title = f"file_{row['id']}"
# 创建文件路径
file_path = os.path.join(output_dir, f"{safe_title}.txt")
# 写入文本文件
with open(file_path, 'w', encoding='utf-8') as txtfile:
txtfile.write(text)
print(f"Created file: {file_path}")
# 使用函数
csv_file_path = 'podcastdata_dataset.csv' # 替换为你的CSV文件路径
create_txt_files_from_csv(csv_file_path) https://pbs.twimg.com/media/GWG4KwPbsAA-Df4.jpg https://pbs.twimg.com/media/GWG4YyvasAAUD8N.jpg https://pbs.twimg.com/media/GWG4eS2bMAAcqE-.jpg