Google AI Lumiere: हालही में गूगल ने एक नया फोटो से वीडियो बनाने वाला AI लॉच किया है जिसका नाम ‘Lumiere’ है। ये AI एक नए डिफ्यूजन मॉडल का इस्तेमाल करता है जिसे Space-Time-U-Net और STUNet कहा जाता है। यह ये अनुमान लगता है वीडियो में चीज़ें कहाँ हैं (Space) और वो समय के साथ कैसे बदल सकती हैं या कहाँ हो सकती हैं (Time) को समझ कर काम करता है। यह Ars Technica Report पर काम करता है इसमें वीडियो को कई छोटे छोटे फ्रेम्स में बांट कर एक वीडियो बनता है।
आइये Google AI Lumiere के बारे में विस्तार से जानते हैं।
गूगल द्वारा पब्लिश किये गए एक वैज्ञानिक पेपर में गूगल ने बताया कि कुछ ही वर्षो में AI वीडियो बनाने वाले टूल्स वास्तविकता के नज़दीक पहुंच गए हैं।
गूगल कि लुमियरे टेक्नोलॉजी वहाँ भी अपना कब्ज़ा कर रही है जहाँ पहले ही उसके प्रतिस्पर्धी अच्छा काम कर रहे हैं जैसे – Runway, Stable video Defusion, या Meta EMU आदि। Runway कुछ शुरुआती Mass-Market Text तो वीडियो Platforms था, इसने पिछली साल मार्च में Runway Gen-2 लॉच किया और अब वह बिलकुल वास्तविकता जैसा वीडियो प्रदान करता है। लेकिन Runway को वीडियो चित्रित करने में कठिनाई होती है यही बात गूगल को बेहतर बनती है।
Google just launched LUMIERE, and it’s insane.
It is a text-to-video model that can generate high-quality, coherent videos from textual input.
Here are some key features of the LUMIERE: pic.twitter.com/fMtDz95dMa
— Hussain Asghar (@shussainasghar) January 25, 2024
अन्य मॉडल दिए गए फ्रेम्स को जोड़ कर एक वीडियो बनाते हैं जैसे एक ड्राइंग बुक को जोड़ कर एक क्लिप बुक बनायीं हो लेकिन ‘lumiere’ में STUNet यह पहले ही अनुमान लगा लेता है कि आने वाले समय में चीज़ें कहाँ होगी उसी के आधार पर वीडियो बनाता है।
हलाकि गूगल Text to Video श्रेणी का एक बड़ा खिलाड़ी नहीं है लेकिन उसने एक के बाद एक कई उन्नत AI मॉडल लांच किये हैं और मल्टीमॉडल कि तरफ झुक गया है जैसे गूगल का जेमिनी बड़ा भाषा मॉडल है और गूगल ने बार्ड में भी फोटो निर्माण करने का मॉडल लाएगा।
lumiere अभी टेस्टिंग के लिए उपलब्ध नहीं है, लेकिन यह गूगल कि क्षमता को प्रदर्शित करता है कि वो ऐसे वीडियो जनरेशन AI Model विकसित कर सकता है जो सामान्यत: Runway और pika से बेहतर है।
Google AI Lumiere Features
- टेक्स्ट से वीडियो बनाना।
- फोटो से वीडियो बनाना ।
- स्टाइलाइज्ड जनरेशन जिसमे यूजर अपने अनुसार वीडियो डिज़ाइन और क्रिएट कर सकता है।
- सिनेमाग्राफ्स जिसमे वीडियो के एक हिस्से को ही चलाते हैं।
- इनपेंटिंग जिसमे वीडियो के किसी क्षेत्र को मार्क करके उसके रंग या आकृति को बदला जा सख्त है।
अंत: गूगल ने lumiere पेपर पर ये नोट भी जारी किया है कि ” तकनीक के साथ नकली और हानिकारक सामिग्री बनाने और दुरपयोग करने का जोखिम है, हम मानते हैं कि यह महत्वपूर्ण है कि पूर्वाग्रहों और दुर्भावनापूर्ण मामलों की पहचान और लागू करने के लिए उपकरण विकसित करना आवश्यक है ताकि एक सुरक्षित और न्यायसंगत उपयोग हो सके।” लेकिन पेपर में ये नहीं बताया गया ये सब कैसे होगा? ये सवाल का सवाल ही बना है।