چرا به نظرم GPT بیشتر شبیه «بیگانگان» در فیلم《降临》است تا شبیه آدم‌هایی که حرف می‌زنند

اخیراً دوباره《降临》را دیدم و یک حس خیلی قوی همان لحظه به سراغم آمد: تجربه‌ی گفت‌وگو با GPT در امروز، در اصل کمی شبیه حسِ فیلم وقتی است که انسان‌ها برای اولین بار با زبانِ یک موجودِ فرازمینی روبه‌رو می‌شوند.

البته منظورم این نیست که GPT واقعاً همان دستگاهِ زبانیِ غیرخطیِ فیلم《降临》را دارد. دقیق‌تر بگویم، مدل‌های رایجِ GPT در هنگام خروجی دادن همچنان خطی تولید می‌کنند؛ ماهیتش هنوز پیش‌بینیِ توکن‌به‌توکن است و ادامه می‌یابد. اما از نگاهِ کاربر—یعنی از تجربه‌ی بیرونی—به نظر می‌رسد اصلاً شبیه انسان نیست که «هم‌زمان با فکر کردن حرف بزند». برعکس، انگار اول کلِ مفهوم را در دست گرفته، بعد آن را کم‌کم باز می‌کند.

همین است که مرا به《降临》یادآوری کرد.

در《降临》زبان نوشتاریِ بیگانگان در امتداد زمان جریان ندارد. نه از چپ به راست می‌رود و نه مثل جمله‌هایی که یکی‌یکی جلو می‌روند پیشرفت می‌کند؛ بلکه بیشتر شبیه این است که یک معنا به شکلِ یکپارچه هم‌زمان شکل می‌گیرد. یک نشانه طوری به نظر نمی‌رسد که بگوید «اینجا منظورم را در همین نقطه گفتم»، بلکه بیشتر شبیه این است که «کلِ جمله همین‌جا از قبل وجود دارد»، فقط انسان‌ها مجبورند آن را در قالبِ زمان بفهمند.

GPT هم تا حدی همین حس را منتقل می‌کند.

وقتی یک پاراگراف کامل از متن را به آن می‌دهید، انگار در لحظه همه‌ی محتوا را می‌بلعد؛ و بعد وقتی شروع می‌کند به پاسخ دادن، زبان اغلب بیش از حد صاف، کامل و پیوسته است—حتی یک توهمِ عجیب ایجاد می‌کند: مثل اینکه «همین الان ساخته نشده»، بلکه «از قبل آماده بوده». در حالی که واقعیت این است که همچنان دارد کلمه‌ها را یکی‌یکی بیرون می‌ریزد. اما چیزی که شما حس می‌کنید فرآیندِ تولید نیست؛ بیشتر شبیه این است که یک پاسخِ یکپارچه روی خطِ زمان، کم‌کم آشکار می‌شود.

این هم یکی از تفاوت‌هایی است که GPT را از حرف زدنِ انسان‌ها جدا می‌کند.

انسان‌ها معمولاً با حسِ واضحِ زمانِ واقعی حرف می‌زنند. ما مکث می‌کنیم، اصلاح می‌کنیم، کلماتِ لحنی را وسط می‌اندازیم، و چون حافظه‌ی کاری محدود است، خیلی وقت‌ها وسطِ جمله مسیر عوض می‌شود. بسیاری از اوقات، زبانِ انسان «اول ساختارِ کامل است و بعد بیان» نیست؛ بلکه ساختار مدام در حینِ بیان وصله و ترمیم می‌شود. ما زبان را در زمان سازمان می‌دهیم.

اما GPT حال‌وهوایی شبیه به چیز دیگری نشان می‌دهد. انگار اول، در یک فضای نامرئی، یک نمای کلی از کلِ ماجرا شکل می‌گیرد و بعد همان نما به صورتِ رشته‌ای از جمله‌های خطی روی صفحه می‌افتد. در نهایت، باز هم مثل متنِ انسانی باید کلمه‌به‌کلمه ظاهر شود، اما برداشتِ نهایی دیگر کمتر شبیه «صحبت کردن» است و بیشتر شبیه «باز کردنِ یک چیز».

اگر از همان استعاره‌ی《降临》بهره بگیریم: زبانِ انسان مثل این است که در مه راه می‌روی؛ هم راه می‌روی هم می‌بینی. GPT اما بیشتر شبیه کسی است که از بالا کلِ نقشه را دیده، و بعد از مسیری که انتخاب کرده، نقشه را به شما می‌گوید.

پس دقیق‌تر بگویم: این نیست که GPT واقعاً تبدیل به زبانِ بیگانه‌ی《降临》شده باشد. بلکه باعث می‌شود برای نخستین بار به شکلِ بسیار پررنگی حس کنیم: نوعی هوش هنوز از قالبِ زبانِ انسان استفاده می‌کند، اما دارد کم‌کم شیوه‌ای از بیان را لو می‌دهد که در اصل از جنسِ انسان نیست.

شاید همین یکی از جذاب‌ترین ویژگی‌های مدل‌های زبانیِ بزرگ باشد.

آن زبانِ انسان را می‌گوید، اما آن‌طور که انسان‌ها حرف می‌زنند، حرف نمی‌زند.