بعد از دو سال گمانه‌زنی و وعده‌های پراکنده از سوی سم آلتمن، مدیرعامل OpenAI، بسیاری انتظار داشتند GPT-5 جهشی بزرگ به سمت «هوش مصنوعی عمومی» یا همان AGI باشد. اما آنچه معرفی شد، بیش از آنکه یک انقلاب علمی باشد، یک بازطراحی بزرگ تجربه کاربری است که تمام مدل‌های قبلی این شرکت را زیر یک پرچم واحد گرد هم آورده.

با این وجود، محدودیت های پنجره زمینه همچنان پابرجاست: ۸ هزار توکن برای کاربران رایگان، ۳۲ هزار برای اشتراک Plus و ۱۲۸ هزار برای نسخه Pro. برای درک بهتر، کافی است دو فایل PDF هم‌اندازه همین متن را آپلود کنید؛ در نسخه رایگان، سقف ظرفیت پر می‌شود.

با همه این حرف‌ها، از نگاه بسیاری از کاربران، ChatGPT همچنان یکی از مفیدترین و در دسترس‌ترین ابزارهای هوش مصنوعی است. بیشتر استفاده‌های روزمره از مکالمه و تولید محتوا گرفته تا کدنویسی به حافظه‌های بسیار بزرگ نیاز ندارند و ظرفیت فعلی GPT-5 برای این نیازها کافی به نظر می‌رسد، هرچند در پروژه‌های سنگین‌تر، برخی ترجیح می‌دهند از مدل‌هایی مانند Gemini 2.5 استفاده کنند.

پنل GPT-5
تصویری از پنل GPT-5

GPT-5 چیست؟

GPT-5 مدل پرچمدار جدید OpenAI است که جایگزین GPT-4 شده است. اگر قبلاً گزینه‌هایی مثل GPT-4o-mini یا o3 را در فهرست انتخاب مدل می‌دیدید، اکنون آن‌ها حذف شده‌اند. دیگر لازم نیست بین سرعت یا کیفیت خودتان انتخاب کنید سیستم به‌طور خودکار این تصمیم را می‌گیرد.

وقتی پرامپت می‌نویسید، «مسیریاب» (router) GPT-5 به‌صورت بلادرنگ تعیین می‌کند که پاسخ سریع و سبک بدهد یا وارد فرایند استدلال عمیق‌تر و کندتر شود. هدف این طراحی تجربه‌ای یکپارچه است: یک نام مدل، رفتار ثابت و حذف نیاز به سویچ دستی.

با این حال، امکان انتخاب دستی هم حفظ شده است: می‌توان «GPT-5 Thinking» را درخواست کرد تا مدل زمان بیشتری صرف کند و پاسخ‌های گام‌به‌گام و مفصل‌تری ارائه دهد، یا در صورت نیاز به بالاترین عمق استدلال و دقت پژوهشی، «GPT-5 Pro» را انتخاب کرد. این گزینه‌ها در واقع حالت‌هایی از همان هستهٔ واحد مدل هستند، نه مدل‌های کاملاً جدا.

دسترسی‌ها بر اساس سطح اشتراک

نسخه رایگان به کاربران امکان بهره‌مندی از مدل اصلی GPT-5 و همچنین نسخه «GPT-5 Thinking» را می‌دهد، اما با محدودترین پنجره زمینه (context window) و سقف استفاده‌ی محدودتر. این نسخه برای مکالمات روزمره، تهیه پیش‌نویس‌های کوتاه و پاسخ به پرسش‌های ساده مناسب است، اما در مواجهه با متون بلندتر و پروژه‌های پیچیده‌تر، محدودیت‌های آن زود نمایان می‌شود.

مشترکان پلن plus، علاوه بر دسترسی به همین مدل‌ها، از پنجره متنی بزرگ‌تر با ظرفیت ۳۲ هزار توکن بهره‌مند می‌شوند که امکان کار با اسناد متوسط و انجام تعاملات طولانی‌تر را فراهم می‌کند. همچنین سرعت پاسخ‌دهی در این پلن نسبت به نسخه رایگان به‌طور محسوس افزایش یافته است، چرا که محدودیت‌ها در این سطح بر اساس میزان دسترسی مدیریت می‌شود.

در پلن pro، دسترسی به سه مدل GPT-5، GPT-5 Thinking و GPT-5 Pro فراهم شده است؛ نسخه‌ای ویژه با بالاترین سطح دقت و توانایی استدلال. در این حالت، ظرفیت پنجره متنی تا ۱۲۸ هزار توکن افزایش می‌یابد که امکان پردازش متن‌هایی در سطح یک فصل کتاب یا چند فایل طولانی را در یک جلسه واحد ممکن می‌سازد.

در نهایت، برنامه‌های تیمی و سازمانی، طرح‌های سفارشی‌سازی شده‌ای هستند که تمامی نسخه‌های مدل را پوشش داده و انعطاف‌پذیری استفاده و بالاترین سرعت پاسخ‌دهی را ارائه می‌کنند. کاربران سازمانی از پنجره متنی ۱۲۸ هزار توکنی بهره می‌برند، در حالی که کاربران تیمی همچنان محدود به پنجره ۳۲ هزار توکنی هستند.

خرید شماره مجازی OpenAI

ویژگی‌های جدید GPT-5

قابلیت‌های چت محور

GPT-5 حالا امکان شخصی‌سازی رنگ محیط چت را دارد تا تجربه کاربری دلپذیرتر شود و همچنین از «شخصیت های از پیش تنظیم شده» پشتیبانی می‌کند که سبک پاسخ‌گویی دستیار را می‌توانند از حرفه‌ای و مختصر تا شوخ طبعانه تغییر دهند و این سبک در طول مکالمه حفظ می‌شود. کاربران پلن پلاس به بالا می‌توانند Gmail و Google Calendar خود را به GPT-5 وصل کنند تا مدیریت زمان و پاسخ به ایمیل‌ها به‌صورت هوشمند انجام شود. علاوه بر این، GPT-5 روش ایمنی خود را بهبود بخشیده و به جای رد کامل درخواست‌های حساس، پاسخ‌های امن و مفید با توضیح محدودیت‌ها ارائه می‌دهد و از پاسخ‌های بیش‌ازحد موافق و غیرواقعی پرهیز می‌کند.

قابلیت‌های ویژه توسعه‌دهندگان

در رابط برنامه‌نویسی کاربردی(API)، کنترل عمیق‌تر روی میزان استدلال و طول پاسخ‌ها فراهم شده است، به طوری که می‌توان پاسخ‌های سریع تر یا مفصل تر را با تنظیم پارامترهای reasoning_effort و verbosity دریافت کرد. همچنین GPT-5 امکان استفاده از ابزارهای سفارشی با متن ساده را فراهم می‌کند که مشکلات فرمت بندی کدهای پیچیده را کاهش می‌دهد و با عبارات با قاعده (regex) هماهنگ می‌شود. در انجام کارهای چندمرحله‌ای و طولانی نیز پیشرفت قابل توجهی داشته و می‌تواند ده‌ها فراخوان ابزار را همزمان یا به ترتیب بدون از دست دادن زمینه دنبال کند.

عملکرد بهتر در پردازش‌های طولانی و دقیق‌تر

GPT-5 در آزمایش‌های داخلی، در زمینه توسعه رابط‌های کاربری پیشرفته عملکرد بهتری نسبت به مدل‌های قبلی داشته و توانسته ۷۰ درصد از مواقع، رابط‌های تمیزتر و زیباتر با چیدمان، تایپوگرافی و فاصله‌گذاری بهتر تولید کند. همچنین، در API از ظرفیت بسیار بالای ۴۰۰ هزار توکن برای ورودی و خروجی پشتیبانی می‌کند که دقت بازیابی اطلاعات را در اسناد طولانی افزایش داده و میزان خطاها و هذیان‌گویی را به‌طور چشمگیری کاهش داده است.

آینه عملکرد GPT-5

SimpleBench و فاصله هوش مصنوعی تا درک انسانی

SimpleBench یک آزمون چندگزینه‌ای متنی است که به‌طور ویژه برای ارزیابی مدل‌های زبان بزرگ (LLM) طراحی شده و نشان می‌دهد افراد بدون تخصص ویژه (دارای دانش سطح متوسطه) می‌توانند از پیشرفته‌ترین مدل‌ها پیشی بگیرند. این آزمون بیش از ۲۰۰ سوال در حوزه‌های استدلال مکانی-زمانی، هوش اجتماعی و چالش‌های زبانی (سوالات فریبنده) را شامل می‌شود. برخلاف اغلب بنچمارک‌های متنی که مدل‌های هوش مصنوعی عملکرد بهتری نسبت به انسان‌های غیرمتخصص دارند، در SimpleBench میانگین پاسخ درست انسان‌ها ۸۳.۷٪ است که از ۱۳ مدل تست‌شده، از جمله GPT-5 و مدل‌های پیشرفته OpenAI، به‌مراتب بالاتر است. این نتایج نشان می‌دهد که دانش ذخیره‌شده و روش‌های تقریبی استدلال مدل‌های امروزی هنوز برای پاسخ به سوالات پایه کافی نیست.

جدول رتبه‌بندی تا این آزمون نیز جایگاه مدل‌ها را نشان می‌دهد؛ در صدر، مدل Gemini 2.5 Pro متعلق به گوگل با ۶۲.۴٪ قرار دارد و GPT-5 در رتبه پنجم با ۵۶.۷٪ جای گرفته است. این فاصله قابل توجه میان عملکرد انسان‌ها و مدل‌ها نشانگر چالش‌های جدی در حوزه استدلال و فهم عمیق زبان برای هوش مصنوعی است و یادآور می‌شود که هنوز راه زیادی تا رسیدن به درک انسانی در هوش مصنوعی باقی است.

منبع : وبسایت SimpleBench

بنچمارک SimpleBench

رتبه‌بندی ARC Prize و عملکرد GPT-5

ARC-AGI یک چارچوب سنجش هوش مصنوعی عمومی است که از نسخه اول خود (ARC-AGI-1) شروع کرد و عمدتاً توانایی‌های پایه هوش سیال را ارزیابی می‌کرد. نسخه دوم آن (ARC-AGI-2) به مرحله‌ای پیشرفته‌تر ارتقا یافته که علاوه بر دقت حل مسئله، سازگاری و کارایی سیستم‌ها را نیز به چالش می‌کشد. این معیار به‌طور همزمان توانایی یک مدل را در تطبیق با شرایط متغیر و حل مسائل با کمترین منابع ممکن می‌سنجد، که شاخص کلیدی برای هوش کارآمد و واقعی محسوب می‌شود.

ARC-AGI با تاکید بر سنجش کارایی و هوشمندی نه تنها در نتیجه بلکه در نحوه رسیدن به پاسخ، نقش مهمی در پیشبرد توسعه مدل‌های هوش مصنوعی دارد و نقشه راهی برای رسیدن به هوش مصنوعی عمومی واقعی فراهم می‌کند.

در جدول رتبه‌بندی ARC-AGI، واضح است که انسان‌ها با کسب امتیاز ۹۸٪ در نسخه اول و ۱۰۰٪ در نسخه دوم، همچنان بهترین عملکرد را دارند؛ البته هزینه اجرای هر وظیفه توسط انسان‌ها نیز بسیار بالا و حدود ۱۷ دلار است که نشان می‌دهد کیفیت و دقت بالا در کنار هزینه قابل توجه به دست می‌آید.

در میان مدل‌های هوش مصنوعی، سیستم‌های مبتنی بر «تفکر زنجیره‌ای» (Chain of Thought) مانند GPT-5، Grok 4 و Claude Opus 4 به چشم می‌خورند. در نسخه اول ARC-AGI، GPT-5 با ۶۵.۷٪ عملکرد در جایگاه دوم قرار دارد و نسبت به مدل‌های مشابه از نظر هزینه بهینه‌تر عمل می‌کند (با هزینه کمتر از ۱ دلار به ازای هر وظیفه). با این حال، در نسخه دوم که چالش‌های کارایی و تطبیق‌پذیری بیشتر شده، درصد موفقیت همه مدل‌ها به شکل چشمگیری کاهش یافته و GPT-5 تنها حدود ۱۰٪ موفقیت کسب کرده است. این کاهش نمایانگر سخت‌تر شدن آزمون و افزایش معیارهای سنجش کارایی است.

از سوی دیگر، مدل‌هایی مثل Grok 4 با هزینه نسبتا بالاتر (۲.۱۷ دلار) در نسخه دوم عملکرد بهتری نسبت به GPT-5 نشان داده‌اند، اگرچه درصد موفقیت کلی همچنان پایین است. این اختلاف‌ها نشان می‌دهد که عملکرد و کارایی مدل‌ها نه تنها به توانایی استدلال بلکه به نحوه بهینه‌سازی منابع و زمان پردازش نیز وابسته است. در نهایت، این جدول بیانگر چالش‌های پیچیده پیش روی هوش مصنوعی عمومی است؛ جایی که تعادل میان دقت، سرعت و هزینه به عنوان معیارهای کلیدی تعیین‌کننده موفقیت مطرح می‌شوند.

منبع : سایت arcprize

نتیجه‌گیری

GPT-5 گرچه به عنوان جدیدترین مدل پرچمدار OpenAI گامی بزرگ در بهبود تجربه کاربری و یکپارچه‌سازی مدل‌های پیشین برداشته، اما هنوز محدودیت‌های مهمی دارد که مانع تبدیل شدن آن به هوش مصنوعی عمومی (AGI) واقعی می‌شود. پنجره زمینه محدود، چالش در پردازش متون بسیار طولانی و فاصله قابل توجه عملکرد آن با انسان‌ها در آزمون‌های استدلالی و چندمرحله‌ای مثل SimpleBench و ARC-AGI، همه نشان می‌دهند که مسیر پیش رو هنوز پرچالش است. این مدل برای کاربردهای روزمره و تولید محتوا کاملاً کارآمد است، اما پروژه‌های سنگین‌تر و دقیق‌تر به فناوری‌های تکامل‌یافته‌تر نیاز دارند.

از سوی دیگر، رتبه‌بندی‌ها و بنچمارک‌های معتبر، نقشه راه ارزشمندی برای بهبود مستمر این فناوری‌ها ارائه می‌کنند و بر اهمیت توسعه مدل‌هایی با استدلال عمیق‌تر، حافظه طولانی‌تر و بهره‌وری بالاتر تأکید دارند. در نهایت، GPT-5 نقطه عطفی در مسیر حرکت به سوی هوش مصنوعی عمومی(AGI) است که هرچند هنوز کامل نیست، اما پایه‌های محکمی برای نسل‌های آینده فراهم کرده است. با پیشرفت‌های آتی، می‌توان انتظار داشت این مدل‌ها به تدریج به توانایی‌های نزدیک‌تر به ذهن انسان دست یابند و کاربردهای گسترده‌تر و عمیق‌تری را ممکن سازند.

دسته بندی شده در: