17日訊,記者獨家獲悉,京東團隊即將開源視覺語言即時交互模型JoyAI-VL-Interaction。記者從一份在開源社區和海外AI技術圈受到關注的技術報告獲悉,JoyAI-VL-Interaction把多模態大模型從”一問一答”,推進到”即時流式交互”,適合需要AI持續在場的場景。報告將JoyAI-VL-Interaction與豆包、Gemini 的App內視頻通話助手進行了人工評測,覆蓋監控預警、即時計數、即時翻譯、時間感知、直播解說和引導、長程記憶六類場景。在58個案例中,JoyAI-VL-Interaction對豆包的總體勝率為77.6%,對Gemini的總體勝率為87.9%。其中,在監控預警場景中,對兩個基線均取得100%勝率。
來源:中國科創板日報