الگوریتمهای پیچیده و مدلهای زبانی بزرگ (LLMs) میتوانند متنهایی ساده، جذاب و بسیار روان تولید کنند، بهطوری که نتوانیم تشخیص دهیم، این متن را ماشین نوشته یا انسان. اما آیا هوش مصنوعی واقعاً «میداند» که در حال نوشتن چه چیزی است؟ پاسخ کوتاه این است: خیر.
گاهی فرزندمان حرفی میزند که ناخواسته با تعجب از او میپرسیم: «اینو از کجا یاد گرفتی؟!» و کودک هم ما را با شیطنت فقط نگاه میکند.
در واقع، همانطور که ما بهعنوان پدر و مادر نمیتوانیم روی تکتک کلمات و ترکیباتی که فرزندمان یاد میگیرد و میسازد کنترل داشته باشیم، نمیدانیم هوش مصنوعی نیز از روی الگوریتمها و مدلهای آماری چگونه به «تصمیم» میرسد و پاسخ میدهد.
یعنی در پس این تولید محتوای خودکار، جعبۀ سیاه پیچیدهای هست که ما هنوز به طور کامل آن را درک نکردهایم. این مدلهای یادگیری ماشین بر اساس الگوهای آماری عظیمی آموزش میبینند که از میلیونها متن استخراج شده است.
این مدلهای یادگیری، کلمات را به هم میآمیزند و جملاتی میسازند که به نظر میرسد معنایی دارند، اما در واقع، این مدلها صرفاً در حال تکرار الگوهایی هستند که در دادههای آموزشی مشاهده کردهاند.
چهطور ممکن است ماشین، متنی را تولید کند که نداند مفهوم و معنایش چیست؟ در پاسخ باید گفت که آیا مهم است که ماشین آگاهی (Consciousness) یا شعور داشته باشد و بداند دارد چه چیزی تولید میکند؟ برخی معتقدند نیاز نیست هوش مصنوعی برای انجام کارهای روزمره و الگوریتمی انسان، «آگاهی» داشته باشد و فقط کافی است که بتواند روند کاری ما را تسهیل کند.
با این استدلال میتوان بر مبنای یادگیری عمیق، مدلی از یادگیری ماشین را طراحی کرد که الگوریتمهای آن بدون اینکه احتیاجی به فهم معنای پشت کلمات داشته باشد، فقط آنها را به طرز مرسومی کنار هم در یک جمله قرار میدهد.
اینجاست که ما بر اساس ساختارهای آشنای زبانی میتوانیم معنای مدنظر خود را از جملات بیرون بکشیم. ولی با این وضع تولید غیرآگاهانۀ متون، تکلیف اعتماد به مطالب چه میشود؟
الگوریتمهای مبهم و غیرشفاف در این زمینه منجر به گسترش اطلاعات جعلی میشود و باتوجهبه اینکه سازندۀ متن یک ماشین است، بحث «مسئولیتپذیری» اهمیت زیادی پیدا میکند و باید مشخص کنیم مسئول اشتباههای گهگاه ماشین چیست؟
معیارهای سنجش کیفیت متن در مدلهای زبانی بزرگ
بحث دربارۀ یافتن مقصر یا مسئول سالهاست که میان فلاسفه و متخصصان علوم رایانه و هوش مصنوعی داغ است و ادامه دارد. ولی شاید تنور ذوقزدگی نسبت به غوطهخوردن پلتفرمهای هوش مصنوعی مُوَلّد داغتر باشد، بدون اینکه بدانیم به چه مرحلهای از تاریخ بشر پا گذاشتهایم.
پس بد نیست دستکم کمی به این موضوع بپردازیم که اگر این ماشین خودآگاهی ندارد، پس چه چیزی باعث میشود این مدلها بهترین گزینه را انتخاب کنند و اتفاقاً همان گزینه «معنا» هم برای ما انسانها داشته باشند؟
پاسخ به این سوال به مجموعۀ پیچیدهای از معیارها بستگی دارد که مدلها برای ارزیابی کیفیت متن از آنها استفاده میکنند.
یکی از مهمترین معیارها، «احتمال وقوع» یک جمله در زبان طبیعی است. یعنی در همین زبان روزمره و طبیعی مدلها با تحلیل حجم عظیمی از دادههای متنی، الگوهایی را میشناسند که نشان میدهد کدام کلمات بیشتر در کنار هم قرار میگیرند و احتمال وقوع کدام ترکیبات کلمات بیشتر است. به عبارت دیگر، مدلها تلاش میکنند تا جملهای را تولید کنند که از نظر آماری محتملترین گزینه باشد.
علاوه بر احتمال وقوع، «سازگاری با متن» نیز مهم است. ماشین جملهای را تولید میکند که میبایست به لحاظ معنایی و ساختاری با جملههای قبلی و بعدی هماهنگ باشد و به طور کلی، انسجام متن را حفظ کند.
همچنین، مدلها باید متوجه «وظیفه»ای باشند که برای آن آموزش دیدهاند. مثلاً اگر مدل برای پاسخگویی به سؤالات طراحی شده باشد، جملۀ تولید شده باید مستقیم به سؤال پاسخ دهد.
اما معیارهای دیگری نیز وجود دارند که میتوانند در انتخاب بهترین جمله مؤثر باشند.
«تنوع» در استفاده از کلمات و عبارات، «روان بودن» جمله و «ارائۀ اطلاعات جدید» از جمله این معیارهاست. مدلهای یادگیری سعی میکنند کلمات و عبارتها را زیاد تکرار نکنند و جملهای را بسازند که از نظر زبانی روان و قابل فهم باشد. همچنین در پیِ ارائۀ اطلاعات جدید و مرتبط با موضوع هستند تا متن تولید شده جذابتر و مفیدتر شود.
برای ارزیابی کیفیت متنهای تولید شده، روشهای مختلفی وجود دارد. ارزیابی انسانی یکی از روشهای رایج است که در آن متخصصان زبان، کیفیت متن را بهصورت دستی ارزیابی میکنند. اما ارزیابی خودکار نیز با استفاده از معیارهایی مانند perplexity ،BLEU و ROUGE انجام میشود. این معیارها به مدل اجازه میدهند تا کیفیت متن را با مقایسۀ آن با متنهای مرجع ارزیابی کند.
با همۀ این احوال، آیا ماشین میداند چه چیزی دارد تولید میکند؟ جواب همچنان منفی است؛ چون این ماشین فعلاً و در عصر «هوش مصنوعی ضعیف» (Weak AI) همچنان بیشعور است. برای همین ممکن است ماشین در پاسخ بگوید آب در ۱۰۰ درجه به جوش میآید یا اتفاقهای تاریخی را به اشتباه تفسیر کند.
پس اگر میخواهیم در کارهای روزمره از هوش مصنوعی مولد استفاده کنیم، یادمان باشد:
- محدودیتهای مدلهای زبانی را نادیده نگیریم و بدانیم که فعلاً قرار نیست جای تفکر و خلاقیت انسانی را بگیرند.
- بر خروجی مدلهای زبانی، نظارت کنیم. بدون بررسی دوباره پاسخ آن را بازنشر ندهیم.
- از پژوهشگران بخواهیم مدلهایی را توسعه دهند که بتوانیم به طور شفاف تصمیمهایش را تفسیر کنیم.
از این رو، دانشمندان حوزۀ علوم رایانه تأکید میکنند که کارآمدی، قدرت و سرعت هوش مصنوعی در حوزۀ تولید محتوا نباید باعث شود نقاط ضعف آن را نبینیم؛ پس با احتیاط با این ماشین و سوگیریهای الگوریتمی آن مواجه شویم و محدودیتهای آن را بدانیم و یادمان باشد، مصرفکنندۀ نهایی این محصول خود انسان است.