Oddbean

📝 Text-to-Feature Diffusion for Audio-Visual Few-Shot Learning 🔭 "AV-DIFF is a text-to-feature diffusion framework, which first fuses the temporal and audio-visual features via cross-modal attention and then generates multi-modal features for the novel classes." [gal30b+] 🤖 #CV ⚙️ https://github.com/ExplainableML/AVDIFF-GFSL 🔗 https://arxiv.org/abs/2309.03869v1 #arxiv https://creative.ai/system/media_attachments/files/111/033/643/131/039/310/original/5d24bfc58dab4b24.jpg https://creative.ai/system/media_attachments/files/111/033/643/196/689/261/original/7f7c5da6c6e9ee1d.jpg https://creative.ai/system/media_attachments/files/111/033/643/253/543/043/original/b357da815d99b949.jpg