ویدیوهای فوری ممکن است قدم بزرگ بعدی در هوش مصنوعی باشد

ایان سانساورا، معمار نرم‌افزار در یک استارت‌آپ نیویورکی به نام Runway AI، توضیح کوتاهی از آنچه می‌خواست در یک ویدیو ببیند را تایپ کرد. او نوشت: «رودخانه ای آرام در جنگل.

کمتر از دو دقیقه بعد، یک سرویس اینترنتی آزمایشی ویدیوی کوتاهی از یک رودخانه آرام در یک جنگل تولید کرد. آب روان رودخانه در حالی که بین درختان و سرخس ها بریده می شد، زیر نور خورشید می درخشید، گوشه ای می چرخید و به آرامی روی سنگ ها می پاشید.

Runway که قصد دارد این هفته خدمات خود را به روی گروه کوچکی از آزمایش‌کنندگان باز کند، یکی از چندین شرکت سازنده فناوری هوش مصنوعی است که به زودی به مردم اجازه می‌دهد تا با تایپ چند کلمه در جعبه‌ای روی صفحه کامپیوتر، ویدیو تولید کنند.

آنها مرحله بعدی یک مسابقه صنعتی را نشان می دهند – مسابقه ای که شامل غول هایی مانند مایکروسافت و گوگل و همچنین استارت آپ های بسیار کوچکتر می شود – برای ایجاد انواع جدیدی از سیستم های هوش مصنوعی که برخی معتقدند می تواند چیز بزرگ بعدی در فناوری باشد، به اندازه مرورگرهای وب مهم. یا آیفون

سیستم‌های جدید تولید ویدیو می‌توانند کار فیلمسازان و دیگر هنرمندان دیجیتال را سرعت ببخشند، در حالی که به روشی جدید و سریع برای ایجاد اطلاعات نادرست آنلاین تبدیل می‌شوند که به سختی قابل تشخیص است، و تشخیص واقعیت در اینترنت را حتی سخت‌تر می‌کند.

این سیستم‌ها نمونه‌هایی از چیزی هستند که به عنوان هوش مصنوعی مولد شناخته می‌شوند، که می‌تواند فورا متن، تصویر و صدا ایجاد کند. مثال دیگر ChatGPT است، چت ربات آنلاین ساخته شده توسط یک استارت آپ سانفرانسیسکو، OpenAI، که صنعت فناوری را با توانایی های خود در اواخر سال گذشته متحیر کرد.

گوگل و متا، شرکت مادر فیس بوک، سال گذشته از اولین سیستم های تولید ویدئو رونمایی کردند، اما آنها را با مردم به اشتراک نگذاشتند، زیرا آنها نگران بودند که این سیستم ها در نهایت برای انتشار اطلاعات نادرست با سرعت و کارایی جدید مورد استفاده قرار گیرند.

اما مدیرعامل Runway، کریستوبال والنزوئلا، گفت که او معتقد است این فناوری با وجود خطراتی که دارد، برای نگهداری در آزمایشگاه تحقیقاتی بسیار مهم است. او گفت: “این یکی از چشمگیرترین فناوری هایی است که ما در صد سال گذشته ساخته ایم.” “شما باید افرادی را داشته باشید که واقعاً از آن استفاده می کنند.”

البته قابلیت ویرایش و دستکاری فیلم و ویدئو چیز جدیدی نیست. فیلمسازان بیش از یک قرن است که این کار را انجام می دهند. در سال‌های اخیر، محققان و هنرمندان دیجیتال از فناوری‌های مختلف هوش مصنوعی و برنامه‌های نرم‌افزاری برای ایجاد و ویرایش ویدیوهایی استفاده می‌کنند که اغلب به آنها ویدیوهای دیپ‌فیک می‌گویند.

اما سیستم هایی مانند سیستمی که Runway ایجاد کرده است، به مرور زمان می توانند مهارت های ویرایش را با فشار دادن یک دکمه جایگزین کنند.

فناوری Runway از هر توضیح کوتاهی ویدیوها را تولید می کند. برای شروع، به سادگی همانطور که یک یادداشت سریع تایپ می کنید، یک توضیحات را تایپ کنید.

اگر صحنه دارای اکشن باشد – اما نه خیلی اکشن – چیزی مانند “یک روز بارانی در شهر بزرگ” یا “سگی با تلفن همراه در پارک”. اینتر را بزنید و سیستم در یک یا دو دقیقه یک ویدیو تولید می کند.

این فناوری می تواند تصاویر رایجی مانند خوابیدن گربه روی فرش را بازتولید کند. یا می تواند مفاهیم متفاوتی را با هم ترکیب کند تا ویدیوهایی را تولید کند که به طرز عجیبی سرگرم کننده هستند، مانند یک گاو در جشن تولد.

ویدئوها فقط چهار ثانیه طول می کشند و اگر از نزدیک نگاه کنید، ویدئو متلاطم و تار است. گاهی اوقات، تصاویر عجیب، تحریف شده و ناراحت کننده هستند. این سیستم راهی برای ادغام حیواناتی مانند سگ و گربه با اشیاء بی جان مانند توپ و تلفن همراه دارد. اما با توجه به درخواست صحیح، ویدیوهایی تولید می کند که نشان می دهد این فناوری به کجا می رود.

فیلیپ ایزولا، استاد موسسه فناوری ماساچوست که در زمینه هوش مصنوعی تخصص دارد، می گوید: «در این مرحله، اگر ویدیویی با وضوح بالا ببینم، احتمالاً به آن اعتماد خواهم کرد. “اما این به سرعت تغییر خواهد کرد.”

مانند سایر فناوری‌های مولد هوش مصنوعی، سیستم Runway با تجزیه و تحلیل داده‌های دیجیتال یاد می‌گیرد – در این مورد، عکس‌ها، فیلم‌ها و شرح‌هایی که توصیف می‌کنند آن تصاویر حاوی چه چیزی هستند. با آموزش این نوع فناوری بر روی مقادیر فزاینده ای از داده ها، محققان مطمئن هستند که می توانند به سرعت مهارت های آن را بهبود بخشند و گسترش دهند. کارشناسان بر این باورند که به زودی مینی فیلم هایی با ظاهر حرفه ای با موسیقی و دیالوگ تولید خواهند کرد.