آیا هوش مصنوعی می‌داند «چگونه» مقاله می‌نویسد؟ خیر!

الگوریتم‌های پیچیده و مدل‌های زبانی بزرگ (LLMs) می‌توانند متن‌هایی ساده، جذاب و بسیار روان تولید کنند، به‌طوری که نتوانیم تشخیص دهیم، این متن را ماشین نوشته یا انسان. اما آیا هوش مصنوعی واقعاً «می‌داند» که در حال نوشتن چه چیزی است؟ پاسخ کوتاه این است: خیر.

گاهی فرزندمان حرفی می‌زند که ناخواسته با تعجب از او می‌پرسیم: «اینو از کجا یاد گرفتی؟!» و کودک هم ما را با شیطنت فقط نگاه می‌کند.

در واقع، همان‌طور که ما به‌عنوان پدر و مادر نمی‌توانیم روی تک‌تک کلمات و ترکیباتی که فرزندمان یاد می‌گیرد و می‌سازد کنترل داشته باشیم، نمی‌دانیم هوش مصنوعی نیز از روی الگوریتم‌ها و مدل‌های آماری چگونه به «تصمیم» می‌رسد و پاسخ می‌دهد.

یعنی در پس این تولید محتوای خودکار، جعبۀ سیاه پیچیده‌ای هست که ما هنوز به طور کامل آن را درک نکرده‌ایم. این مدل‌های یادگیری ماشین بر اساس الگوهای آماری عظیمی آموزش می‌بینند که از میلیون‌ها متن استخراج شده است.

این مدل‌های یادگیری، کلمات را به هم می‌آمیزند و جملاتی می‌سازند که به نظر می‌رسد معنایی دارند، اما در واقع، این مدل‌ها صرفاً در حال تکرار الگوهایی هستند که در داده‌های آموزشی مشاهده کرده‌اند.

چه‌طور ممکن است ماشین، متنی را تولید کند که نداند مفهوم و معنایش چیست؟ در پاسخ باید گفت که آیا مهم است که ماشین آگاهی (Consciousness) یا شعور داشته باشد و بداند دارد چه چیزی تولید می‌کند؟ برخی معتقدند نیاز نیست هوش مصنوعی برای انجام کارهای روزمره و الگوریتمی انسان، «آگاهی» داشته باشد و فقط کافی است که بتواند روند کاری ما را تسهیل کند.

با این استدلال می‌توان بر مبنای یادگیری عمیق، مدلی از یادگیری ماشین را طراحی کرد که الگوریتم‌های آن بدون اینکه احتیاجی به فهم معنای پشت کلمات داشته باشد، فقط آن‌ها را به طرز مرسومی کنار هم در یک جمله قرار می‌دهد.

اینجاست که ما بر اساس ساختارهای آشنای زبانی می‌توانیم معنای مدنظر خود را از جملات بیرون بکشیم. ولی با این وضع تولید غیرآگاهانۀ متون، تکلیف اعتماد به مطالب چه می‌شود؟

بیشتر بخوانید کلیات سند ملی هوش مصنوعی تصویب شد

الگوریتم‌های مبهم و غیرشفاف در این زمینه‌ منجر به گسترش اطلاعات جعلی می‌شود و باتوجه‌به اینکه سازندۀ متن یک ماشین است، بحث «مسئولیت‌پذیری» اهمیت زیادی پیدا می‌کند و باید مشخص کنیم مسئول اشتباه‌های گه‌گاه ماشین چیست؟

معیارهای سنجش کیفیت متن در مدل‌های زبانی بزرگ

بحث دربارۀ یافتن مقصر یا مسئول سال‌هاست که میان فلاسفه و متخصصان علوم رایانه و هوش مصنوعی داغ است و ادامه دارد. ولی شاید تنور ذوق‌زدگی نسبت به غوطه‌خوردن پلتفرم‌های هوش مصنوعی مُوَلّد داغ‌تر باشد، بدون اینکه بدانیم به چه مرحله‌ای از تاریخ بشر پا گذاشته‌ایم.

پس بد نیست دست‌کم کمی به این موضوع بپردازیم که اگر این ماشین خودآگاهی ندارد، پس چه چیزی باعث می‌شود این مدل‌ها بهترین گزینه را انتخاب کنند و اتفاقاً همان گزینه «معنا» هم برای ما انسان‌ها داشته باشند؟

پاسخ به این سوال به مجموعۀ پیچیده‌ای از معیارها بستگی دارد که مدل‌ها برای ارزیابی کیفیت متن از آن‌ها استفاده می‌کنند.

یکی از مهم‌ترین معیارها، «احتمال وقوع» یک جمله در زبان طبیعی است. یعنی در همین زبان روزمره و طبیعی مدل‌ها با تحلیل حجم عظیمی از داده‌های متنی، الگوهایی را می‌شناسند که نشان می‌دهد کدام کلمات بیشتر در کنار هم قرار می‌گیرند و احتمال وقوع کدام ترکیبات کلمات بیشتر است. به عبارت دیگر، مدل‌ها تلاش می‌کنند تا جمله‌ای را تولید کنند که از نظر آماری محتمل‌ترین گزینه باشد.

علاوه بر احتمال وقوع، «سازگاری با متن» نیز مهم است. ماشین جمله‌ای را تولید می‌کند که می‌بایست به لحاظ معنایی و ساختاری با جمله‌های قبلی و بعدی هماهنگ باشد و به طور کلی، انسجام متن را حفظ کند.

همچنین، مدل‌ها باید متوجه «وظیفه»‌ای باشند که برای آن آموزش دیده‌اند. مثلاً اگر مدل برای پاسخگویی به سؤالات طراحی شده باشد، جملۀ تولید شده باید مستقیم به سؤال پاسخ دهد.

اما معیارهای دیگری نیز وجود دارند که می‌توانند در انتخاب بهترین جمله مؤثر باشند.

بیشتر بخوانید هوش مصنوعی، انقلابی در دنیای خبر: چالش‌ها و فرصت‌ها

«تنوع» در استفاده از کلمات و عبارات، «روان بودن» جمله و «ارائۀ اطلاعات جدید» از جمله این معیارهاست. مدل‌های یادگیری سعی می‌کنند کلمات و عبارت‌ها را زیاد تکرار نکنند و جمله‌ای را بسازند که از نظر زبانی روان و قابل فهم باشد. همچنین در پیِ ارائۀ اطلاعات جدید و مرتبط با موضوع هستند تا متن تولید شده جذاب‌تر و مفیدتر شود.

برای ارزیابی کیفیت متن‌های تولید شده، روش‌های مختلفی وجود دارد. ارزیابی انسانی یکی از روش‌های رایج است که در آن متخصصان زبان، کیفیت متن را به‌صورت دستی ارزیابی می‌کنند. اما ارزیابی خودکار نیز با استفاده از معیارهایی مانند perplexity ،BLEU و ROUGE انجام می‌شود. این معیارها به مدل اجازه می‌دهند تا کیفیت متن را با مقایسۀ آن با متن‌های مرجع ارزیابی کند.

با همۀ این احوال، آیا ماشین می‌داند چه چیزی دارد تولید می‌کند؟ جواب همچنان منفی است؛ چون این ماشین فعلاً و در عصر «هوش مصنوعی ضعیف» (Weak AI) همچنان بی‌شعور است. برای همین ممکن است ماشین در پاسخ بگوید آب در ۱۰۰ درجه به جوش می‌آید یا اتفاق‌های تاریخی را به اشتباه تفسیر کند.

پس اگر می‌خواهیم در کارهای روزمره از هوش مصنوعی مولد استفاده کنیم، یادمان باشد:

محدودیت‌های مدل‌های زبانی را نادیده نگیریم و بدانیم که فعلاً قرار نیست جای تفکر و خلاقیت انسانی را بگیرند.
بر خروجی مدل‌های زبانی، نظارت کنیم. بدون بررسی دوباره پاسخ آن را بازنشر ندهیم.
از پژوهشگران بخواهیم مدل‌هایی را توسعه دهند که بتوانیم به طور شفاف تصمیم‌هایش را تفسیر کنیم.

از این رو، دانشمندان حوزۀ علوم رایانه تأکید می‌کنند که کارآمدی، قدرت و سرعت هوش مصنوعی در حوزۀ تولید محتوا نباید باعث شود نقاط ضعف آن را نبینیم؛ پس با احتیاط با این ماشین و سوگیری‌های الگوریتمی آن مواجه شویم و محدودیت‌های آن را بدانیم و یادمان باشد، مصرف‌کنندۀ نهایی این محصول خود انسان است.