|
- LLaVA: Large Language and Vision Assistant - GitHub
[10 5] 🔥 LLaVA-1 5 is out! Achieving SoTA on 11 benchmarks, with just simple modifications to the original LLaVA, utilizes all public data, completes training in ~1 day on a single 8-A100 node, and surpasses methods like Qwen-VL-Chat that use billion-scale data Check out the technical report, and explore the demo!
- LLaVA系列——LLaVA、LLaVA-1. 5、LLaVA-NeXT、LLaVA-OneVision
LLaVA是一系列结构极简的多模态大模型。 不同于Flamingo的交叉注意力机制、BLIP系列的Q-Former,LLaVA直接 使用简单的线性层将视觉特征映射为文本特征,在一系列的多模态任务上取得了很好的效果。
- 【LLM多模态】LLava模型架构和训练过程 | CLIP模型-CSDN博客
LLaVA的模型结构非常简单,就是CLIP+LLM (Vicuna,LLaMA结构),利用Vison Encoder将图片转换为 [N=1, grid_H x grid_W, hidden_dim] 的feature map,然后接一个插值层Projection W,将图像特征和文本特征进行维度对齐。
- LLaVA
LLaVA represents a novel end-to-end trained large multimodal model that combines a vision encoder and Vicuna for general-purpose visual and language understanding, achieving impressive chat capabilities mimicking spirits of the multimodal GPT-4 and setting a new state-of-the-art accuracy on Science QA
- LLaVA(Large Language and Vision Assistant)大模型 - 知乎
研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。
- 第一节 LLaVA模型安装、预测、训练详细教程-CSDN博客
本教程详细介绍了LLava多模态大模型的安装、预测和训练过程,包括环境配置、权重下载、推理运行及LORA训练,提供hugging face的使用和wandb的可视化监控。
- llava-hf (Llava Hugging Face)
LLaVa, a visual instruction tuned version of LLaMa and other large language models, can now be used natively with the Transformers library TRL now includes experimental support for fine-tuning!
- 无需人类或GPT-4打标签!南大 旷视研究院无监督范式大幅降低视觉大模型对齐成本-51CTO. COM
让视觉模型更符合人类偏好 在9个benchmark上,SeVa几乎都能够做到稳定的提升,特别是在GPT-4评估的MMVet,和LLaVA-bench上提升显著,在用于评估幻觉的指标POPE、SHR上也有稳定的性能提升。
|
|
|