بایگانی برچسب: s

خیلی وقت پیش، در مورد این که جماعتی که خود را به نام نرم‌افزار آزاد معرفی می‌کنند، چگونه با پروژه جبیر و من برخورد کردند (لینک) و خب در سال گذشته هم گروه موسوم به «گروه کاربران گنو/لینوکس تهران» که به اختصار تهلاگ نامیده میشه هم برخورد جالبی نداشت (لینک) و خب این موضوعات، مجدد در یکی دو ماه گذشته داغ شدند. تصمیم گرفتم هرچه لازمه، بنویسم. البته بهتره قبل از اون، این مطلبی که در مورد تیر ۹۹ و اتفاقات پیرامونش هم نوشتم بخونید.

و این رو هم پیشاپیش، هشدار می‌دم که این مقاله، احتمالا شروعی بر اتفاقی به بزرگی و با حاشیه‌های تیر ۹۹ باشه، اما شخصا ترجیح خواهم داد که دور از گود بایستم. همانگونه که بسیاری از آقایان، دعواها را می‌سازند و بیرون گود می‌ایستند و می‌گویند «لنگش کن».

نرم‌افزار آزاد، محلی است برای یادگیری، نه دعوا و ترول‌بازی

گرچه احتمالا پس از این که این مطلب انتشار یابد، بسیاری از دوستان تلاش می‌کنند افراد حاضر در جامعه را متقاعد کنند که این بلاگ، به قصد ترول نوشته شده است، باید بگویم که خیر.

زمانی، دقیقا همان زمان که انجمن اوبونتو – که شاید هنوز هم از معدود هاب‌های نرم‌افزار آزاد در وب فارسی باشد – شخص من را ترول می‌کرد و به سیبل پرتاب عقده‌ها و کمبودهای شخصیتی ادمین‌ها و ناظران تبدیل شده بودم، به من عنوان ترول را دادند.

به قدری روی این عنوان پافشاری کردند که سال‌ها بعد، افراد معلوم‌الحال و پرونده‌سازی که در اکوسیستم شهره شهر هستند نیز مدام به این موضوع اشاره می‌کردند و سعی می‌کردند با این موضوع، دفاعیات شخص من از خود را تا حد زیادی بی‌معنا کنند.

این در حالیست که فلسفه نرم‌افزار آزاد، خلاف این موضوع است. نرم‌افزار آزاد ذاتا یک مفهوم Intersectional است و به افراد متفاوتی اجازه حضور می‌دهد، اما با سیستمی که به راه افتاده، هرچیزی را شاهدیم جز این مورد. در واقع به سبک اتحاد جماهیر شوروی، هرکس که در کمیته مرکزی تایید نشود، حق فعالیت ندارد. نمونه‌های زیادی از این موضوع هم در برخورد با پروژه‌ها و اشخاص دیده‌ایم.

این‌ها در حالیست که افرادی با گرایش واضح تجزیه‌طلبانه، نئونازیستی، چپ‌گرای افراطی و … در گروه‌ها جولان می‌دهند، دارای تریبون هستند و برای مثال وقتی کسی می‌گوید «چرا زنی در میان ارائه‌دهندگان نیست؟» یکهو یادشان می‌افتد که باید به آزادی برگزارکنندگان احترام گذاشت!

نرم‌افزار آزاد، در مورد شفافیت است!

در زمانی که در حوزه نرم‌افزار آزاد فعالیت می‌کردم (و بلاشک انتشار چندین کتاب آزاد، انتشار هزاران خط کد آزاد و حتی انتشار مدل‌های هوش مصنوعی آزاد که از صفحه گیتهاب من در دسترسند) بلاشک هر «ننه قمری» از راه می‌رسید یک سوال داشت «پول این کارها را از کجا می‌آوری؟»

بارها با شفافیت تمام گفتم که هزینه خیلی از این پروژه‌ها، از جیب تامین می‌شود. برخی را بعضی دوستان حمایت مالی می‌کنند (برای مثال مدتی شرکت ایران‌سرور، اسپانسر پروژه‌های هوش مصنوعی من بود) و برخی دیگر نیز بخاطر گرنت‌ها (تسهیلات)یی است که خارجی‌ها، برخلاف داخلی‌ها – که فقط ادعای تو خالی و بادمعده‌ای هستند – داده‌اند. جدی بگویم، بسیاری از این خارجی‌ها صرفا تا می‌شنیدند که قرار است تلاشی مانند مدل‌های مانی آزاد باشد، حساب را بدون چون و چرا چند هزار دلار شارژ می‌کردند و در تبلیغ و بازاریابی نتیجه نیز کمک بسزایی می‌دادند.

حتی یاد دارم که زمانی که استارتاپ مانی – که شاهدان زیادی مانند دوستان قدیمی‌ام در استارتاپ آرمو داشتم – که با هزینه شخصی ساخته شده بود بسیاری از دوستان می‌گفتند «از کجا آوردی که چنین چیزی راه‌اندازی کرده‌ای؟» شاید بهتر بود می‌گفتم «از سر قبر پدر فلان‌فلان‌شده‌ات» و انقدر خود را آزار نمی‌دادم.

حالا بیایید فرض کنید که از یک دوستی بپرسید تو که انقدر دست به رویدادت خوب است (با فرض این که تا الان در مورد هزینه و حمایت رویداد شفافیت نداشته) چه پاسخی بدهد خوب است؟ هیچ. در نهایت شما را متهم به ترول و دلقک بودن می‌کند و خودش می‌رود به رویدادهایش می‌رسد. که البته برگزاری رویداد اصلا چیز بدی نیست، من هم ضد آن نیستم فقط میخواستم بگویم که چه در جریان است.

در یک جامعه درست، مخفی‌کاری جایی ندارد.

تیر ۹۹، با تمام شک و شبهه‌های دور خودش یک خوبی داشت. مشخص کرد جماعت عریضه‌نویس همیشه معترض، آن هم از نوع معترض زیرلحافی، شناگران ماهر آب‌ندیده هستند. این شناگران ماهر آب‌ندیده آنجایی خود را نشان دادند که در برابر انجمن نام – که همه چیزش داشت شفاف و درست پیش می‌رفت – دک و پوز مبارزین عدالت اجتماعی داشتند، اما به خودشان که رسید، تپید!

چرا تپید؟ بسیاری از پروژه‌هایی که واضحا در داخل توسعه می‌یابند را به نام پروژه‌های خارجی مطرح کردند. گفتند مشارکت‌کننده از ایران دارد. در نهایت فهمیدیم که شخصی از ایران، در حال کار روی این پروژه‌ است و اتفاقا شرکت بزرگی از ایران هم پشت آن پروژه ایستاده، فقط برای این که خدای نکرده مورد اصابت ۹۹ تیر سه‌شعبه قرار نگیرند (چون بهرحال هم‌نوعان خودشان را خوب می‌شناسند) وانمود کردند که اینطور نیست. وانمود کردند رفت و آمد مالی اینجا اتفاق نمی‌افتد و صرفا حمایت از نرم‌افزار آزاد است.

بگذارید دوباره بگویم که حمایت از نرم‌افزار آزاد بسیار هم خوب است. اما چرا یک بار یکی از این دوستان از پروژه‌هایی مانند پارچ‌لینوکس یا پرسپولیس حمایت نکرد؟ چرا زمانی که مرحوم راستی‌کردار هنوز در قید حیات بود از ایشان دعوتی به عمل نیامد که سخنران یکی از رویدادها باشد؟ بگذارید باور نکنیم که تنها هدفتان توسعه آزادی نرم‌افزار است!

از طرف دیگر نیز وقتی دوستان برای اسپانسرهای مورددار – که انصافا انقدر شرف داشتند که نامی از آن‌ها بیاورند – مورد پرسش قرار می‌گیرند، تنها بازخوردشان مسدود کردن یک کاربر از گروه است؟ علاوه بر آن، از پاسخگویی درست در موردش طفره می‌روند؟ چرا پیرامون این که کانال‌های اجتماعی این رویدادها و اجتماعات بخصوص توسط چه کسی چرخانده می‌شود صحبت نمی‌شود؟ یا حتی گفته نمی‌شود که به نفع چه کسی درآمدزا یا مانتایز شده است؟ پاسخ این سوالات اگر داده شود، بسیاری از این مشکلات حل خواهند شد.

و اما وداع…

گرچه من طبق معمول، به انتشار محتوا، نرم‌افزار، مدل و … آزاد ادامه خواهم داد و این رویه را متوقف نخواهم کرد. اگر پروژه‌ای ببینم که قابل مشارکت باشد، قطعا در آن مشارکت می‌کنم.

وداع من با جامعه این است که در هیچ رویدادی مشارکت فعال نخواهم داشت. نه لاگ نه SFD نه رویداد دیگری که اسم «نرم‌افزار آزاد ایران» را یدک بکشد. همانطور که مانی نیز به زودی با اکوسیستم استارتاپی ایران وداع می‌کند تا مدتی را صرف تحقیق و تفحص پیرامون بازارهای جدید کنم، ترجیحم این خواهد بود که تمرکزم به جای این رویدادهای بی‌حاصل – به جز برای برگزارکنندگانی که جیب و رزومه خود را پرمی‌کنند – بر روی رشد دانش فردی و جمعی باشد.

در نهایت، پیش از آن که این مطلب به پایان برسد، خواهش می‌کنم این را به خود بگیرید و بدانید که حاضر به شرکت در هیچگونه صحبت دونفره، مصاحبه، مناظره و … پیرامون این مطلب خاص نیستم. چنانچه هم به دنبال مطالعات من در زمینه کارآفرینی هستید، به شما توصیه می‌کنم که به کانال تینک‌تانک بپیوندید.

در نهایت از تمامی افرادی که واقعا به مفهوم آزادی احترام گذاشتند، بدون ذره‌ای چشم‌داشت مادی رویداد برگزار کردند و مشارکت کردند، نرم‌افزار و توزیع و سخت‌افزار ساختند، تشکر ویژه می‌کنم. چنین افرادی در این ناجامعه، بسیار نایابند. امیدوارم در آینده قدردانشان باشیم.

پی‌نوشت: من این مطلب را فقط و فقط در کانال تلگرام ذهن زیبا قرار خواهم داد. انتشار آن در گروه‌ها و کانال‌های دیگر توسط دوستان دیگری رخ خواهد داد.

برنامه نویسی

برای ساخت agent های هوش مصنوعی، فقط به پایتون نیاز دارید!

دسامبر 31, 2024 محمدرضا حقیری 2 دیدگاه

پاییز دو سال پیش بود که ChatGPT آمد و به شکل خاصی بازار همه چیز رو عوض کرد یا بهتره بگم که به هم ریخت 😁 در این مدت نه فقط OpenAI که هزاران شرکت دیگر هم دست به کار شدند و شروع کردند به ارائه مدل‌های زبانی بزرگ یا همون LLMها و خواستند که به شکلی با OpenAI رقابت کنند.

الان که دو سالی از اون روزها گذشته منتها موضوع کمی تفاوت داره و بیش از این که سمت ارائه مدل بریم، بهتره به سمت agent یا «عامل» بریم که خب خودش یک بحث مفصله.

دیشب، در بلاگ انگلیسیم کمی در مورد مدل‌های بزرگ و ایجنت‌ها صحبت کردم و امروز تصمیم گرفتم که بلاگ فارسیش رو هم بنویسم که هر دو طرف، محتوای مناسب رو داشته باشیم.

ایجنت‌ها، عملگرایی به LLMها اضافه می‌کنند.

اگر دنبال‌کننده بلاگ و در کل محتوای من باشید، احتمالا می‌دونید که من هم در بازی LLM بودم و مثلا یکی از LLMهای اوپن سورسی که روش کار کردم مدل مارال هفت میلیارد پارامتری بود که روی Alpaca Persian تمرین داده شد.

اما آیا یک مدلی که سوال-جواب کنه کافیه یا به چیزی بیشتر نیاز داریم؟ در واقع برای این که LLMها بتونن موثر واقع بشن، باید بتونن با ابزارهای مختلف تعامل کنند. حالا شما فرض کنید که بخواهیم این تعامل رو در سطح فاین‌تیون کردن، به مدل اضافه کنیم.

یعنی فرض کنید که ما APIهایی از دیجی‌کالا، اسنپ، دیوار و مثلا ابر آروان بگیریم. سعی کنیم با کمک تعدادی API Call نمونه، مدل رو تیون کنیم. حالا فرض کنید یک نفر بخواد این مدل رو برای استفاده از تپسی یا باسلام به کار بگیره. چی میشه؟ هیچی! مجددا بار فاین‌تیون با APIهای جدید میفته روی دوش کاربر.

برای حل این مشکل، ما نیاز به agentها داریم. در واقع در مثال‌های فوق هر API و ابزاری که لازم داریم رو برمیداریم، می‌بریم یک جایی براشون توابع درستی می‌نویسیم و سپس با کمک LLMها خروجی رو «انسانی» یا Humanize می‌کنیم. به این شکل بار فاین‌تیون کردن LLMهم به دوش نمی‌کشیم و همه چیز هم عالی پیش خواهد رفت.

ساخت ایجنت بدون استفاده از فریمورک

دقیقا از زمانی که OpenAI و سایر شرکت‌هایی که LLM ارائه دادند APIهای چت و یا Instruction Following خودشون رو هم ارائه کردند، فریمورک‌های زیادی مثل Flowise یا Crew AI ساخته شدند که به شما کمک کنند تا ایجنت بسازید.

اما راستش رو بخواهید – همونطور که در بلاگ انگلیسی هم توضیح داده بودم – خیلی از این فریمورک‌ها یه حجم عجیب و غریبی از پیچیدگی رو به فرایند ساخت ایجنت دارند اضافه می‌کنند.

نتیجه این شد که شخصا به دنبال روشی گشتم که بتونم بدون استفاده از فریمورک خاصی، به راحتی بتونیم یک ایجنت بسازیم. برای همین لازم بود که درک کنم ایجنت اصلا چی کار می‌کنه؟ چرا انقدر مهمه که ما بتونیم ایجنت رو درک کنیم؟ و صدالبته از هر ایجنتی که اسمش «اسمیت» باشه دوری بجوییم 😂

ایجنت‌ها یک سری «وظیفه» و «ورودی مناسب هر وظیفه» رو درک می‌کنند. این وظایف یا تسک‌ها در واقع توابعی هستند که در برنامه‌مون قرار ادادیم که بتونن یک کاری رو انجام بدن (مثلا بره رخداد n ام سری فیبوناچی رو حساب کنه) و ورودی‌هاشون هم دیتاییه که ایجنت باید با هوش خودش تشخیص بده و بسازه.

در نهایت نیاز به مکانیزمی داریم که بیاد این وظایف و ورودی‌ها رو اجرا کنه، خروجیشون رو دوباره بده به LLM و ازش بخواد که Humanizeش کنه. گذشته از این بد نیست که ایجنت ما یک حافظه کوچکی هم داشته باشه.

نمونه یک ایجنت ساده با پایتون

سلب ادعا: از اونجایی که کد این ایجنت رو در گیتهاب گذاشتم، صرفا مراحل ساخت ایجنت ساده رو توضیح میدم و باقیش رو میتونید از گیتهابم ببینید و ایده بگیرید.

اولین گام ما برای ساخت ایجنت باید این باشه که یک LLM مناسب انتخاب کنیم. شما مختارید هر LLMای که یک OpenAI Compatible API ارائه می‌ده انتخاب کنید اما من شخصا دارم از پروژه جبیر خودم استفاده می‌کنم 😁

بعد از اون، لازم داریم که بیاییم یک کلاینت ساده OpenAI درست کنیم که بتونه با API مورد نظر ما کار کنه:

from openai import OpenAI

client = OpenAI(api_key="FAKE", base_url="https://openai.jabirpoject.org/v1")

همونطور که قبلا در این پست توضیح داده بودم، کتابخونه OpenAI در پایتون نیازمند یک API Keyئه که اینجا ما از FAKE استفاده کردیم براش.

حالا یک کلاس ایجنت ساده درست می‌کنیم که حافظه هم داشته باشه:

class Agent:
    
    def __init__(self, system=""):
        self.system = system
        self.messages = []
        if self.system:
            self.messages.append({"role" : "system", "content" : system})
    
    def __call__(self, message):
        self.messages.append({"role" : "user", "content" : message})
        result = self.execute()
        self.messages.append({"role" : "assistant", "content" : result})
        return result
    
    def execute(self):
        completion = client.chat.completions.create(
            model = "jabir-400b",
            messages = self.messages,
            temperature = 0.0
        )
        
        return completion.choices[0].message.content

همونطوری که می‌بینید، این ایجنت می‌تونه یک تاریخچه از چیزهایی که بهش گفتیم (و بهمون گفته) نگه داره و کم کم باید بریم سراغ این که بهش اکشن‌های مورد نظر رو اضافه کنیم.

ولی خب بهتره قبل از اضافه کردن اکشن، تستش کنیم. برای تستش هم این کد رو می‌تونید اجرا کنید:

sample_agent = Agent("You are a helpful assistant")
print(sample_agent("What is 1+1?"))

کد نمونه با اکشن

اگر دوست دارید بدونید که این ایجنت ما با اکشن چطوری کار می‌کنه، می‌تونید به این مخزن گیتهاب مراجعه کنید و ببینید که چطور به راحتی میشه یک اکشن به همین ایجنت ساده اضافه کرد و بار فریمورک‌ها رو هم به دوش نکشید.

جمع‌بندی

اگر طی دو سه سال گذشته محتوای این بلاگ رو خونده باشید می‌بینید که علاقه من به هوش مصنوعی از پروژه‌هایی مثل ریاضی ۱ رو با هوش مصنوعی پاس کن یا پلاک‌خوان فارسی که با Yolo v5 پیاده کرده بودم جدی شد.

این علاقه، کم کم به سمت Generative AI رفت و خب طبیعتا همین علاقه باعث ساخته‌شدن پلتفرم مانی و همچنین آتلیه شد. اما خب در سال ۲۰۲۵ احتمالا بیش از این که به مدل‌های جدید نیاز داشته باشیم، نیاز داریم که مدل‌ها رو به سمت agentic شدن بیاریم و اپلیکیشن‌ها رو به شکل AI agent داشته باشیم.

برنامه نویسی

استفاده از APIهای ChatGPT به صورت کاملا رایگان!

اکتبر 23, 2024 محمدرضا حقیری 9 دیدگاه

سلب ادعا: این مطلب صرفا آموزشی بوده و هرگونه استفاده غیرقانونی از دانش به اشتراک گذاشته شده در این مطلب، بر عهده خواننده خواهد بود.

احتمالا شما هم دوست داشتید که از APIهای OpenAI استفاده کنید ولی هزینه‌های بالایی داشته و اونطوری که باید و شاید، نتونسته شما رو راضی کنه. در این پست، می‌خوام یک راهکار بهتون نشون بدم که به صورت «کاملا رایگان» بتونید از این APIها استفاده کنید. فقط یادتون باشه که این روش رو فقط برای مصارف شخصی استفاده کنید، چون اگر ببریدش روی محصول، ممکنه دردسرساز بشه براتون.

این رو هم بگم که این مطلب، مطلبیه شدیدا برنامه‌نویسانه و خب برخلاف مطالب قبلی که یکم مخاطب عام‌تری داشت، نیاز به کمی دانش پایه برنامه‌نویسی داره.

پیش‌نیازها

برای این که از این آموزش استفاده کنیم، نیاز داریم این موارد رو بلد باشیم:

آشنایی پایه با APIها و این که چطور کار می‌کنند (می‌تونید یکی از مطالب قدیمی من رو بخونید)
آشنایی اجمالی با پایتون

همین؟ بله همین!

شروع به کار

نصب کتابخانه‌های مربوطه

مثل هر پروژه دیگری، ابتدا نیاز داریم تا کتابخانه‌ها و چارچوب‌های مربوط به اون رو، روی سیستم خودمون نصب کنیم. چون این پروژه پایتونیه، از ابزار pip استفاده خواهیم کرد.

اما قبل از اون، بهتره یک محیط مجازی پایتون ایجاد کنیم:

virtualenv -ppython3 .venv

بعد از اون، وقتشه که فعالش کنیم:

source .venv/bin/activate

دقت کنید این پروسه فعال‌سازی، در ویندوز کمی متفاوت از مک و لینوکسه که با یک سرچ ساده، می‌تونید بهش برسید. البته توصیه شخصیم اینه که روی ویندوز هم از WSL استفاده کنید که بدون مشکل تمامی کدهایی که در این پست قرار دادم، براتون اجرا بشه (چون هم روی لینوکس، هم مک و هم WSL تستشون کردم).

بعد از فعالسازی، ترمینال شما به این شکل درمیاد:

(venv) ~:$

این به این معناست که محیط مجازی پایتون، اجرا شده و میشه بدون مشکل ازش استفاده کرد.

حالا وقتشه که کتابخونه‌های openai و g4f رو نصب کنیم:

pip install "g4f[all]" openai

این دو کتابخونه، دقیقا تنها چیزهایی هستند که ما نیاز داریم!

حالا g4f چیه؟

عبارت g4f مخفف gpt4free و بازی با عبارت gpt for free یعنی «جی‌پی‌تی رایگان»ئه! حالا این کتابخونه چه کاری می‌کنه که gpt رایگان به ما می‌رسونه؟ 😁

کاری که این کتابخونه می‌کنه، اینه که میاد و از providerهای مختلفی که داره (بعضیا مثل Airforce/OpenRouter با خواست خودشون البته در اختیارش قرار دادند) استفاده می‌کنه و به شما امکان استفاده از مدل‌های متنوع هوش مصنوعی مثل GPT, Claude, Mistral و … رو میده. در واقع یک «تلاش برای دمکراتیزه کردن هوش مصنوعی» در نوع خودش می‌تونه محسوب بشه.

و خب نه فقط چت‌بات، که APIهای تولید تصویر (بخصوص با مدل Dall-E) رو هم پشتیبانی درستی داره می‌کنه! اما حقیقتش رو بخواهید، مدل‌های تصویرش به شدت محدودن و بهتره که به همین متنی‌ها قناعت بورزیم 😁

چرا به OpenAI نیاز داریم؟

این هم سوال خوبیه. مگه نگفتیم قرار نیست از خود OpenAI یا سایر فراهم‌کنندگان APIهاش سرویس بگیریم؟ درسته. ولی نیاز داریم به کتابخونه پایتونیش برای این که بتونیم از API لوکالمون استفاده کنیم!

راه‌اندازی API لوکال

خب الان وقتشه یک پنجره ترمینال جدید باز کنید، طبق چیزی که گفته شد، محیط مجازی رو فعال کنید و سپس تایپ کنید:

g4f api

بعدش enter بزنید و صبر کنید تا API بیاد بالا. وقتی API بیاد بالا چنین صحنه‌ای می‌بینید:

و تبریک، API ما قابل استفاده‌ست.

نوشتن کد پروژه

این همه توضیح دادیم تا برسیم به بخش جذاب ماجرا، که نوشتن کدهای پروژه‌مونه!

اول لازم داریم تا کتابخونه‌های لازم رو به پروژه اضافه کنیم:

from openai import OpenAI

این قطعه کد، میاد و کلاس OpenAI رو از کتابخونه openai برای ما در پروژه لود می‌کنه.

بعدش نیاز داریم یک کارخواه OpenAI درست کنیم:

client = OpenAI(
 api_key = "FAKE", 
 base_url = "http://localhost:1337/v1"
)

خب یک توضیحی بدم، کتابخونه OpenAI بدون API Key کار نمی‌کنه. به همین خاطر یک مقدار بی‌خود (در اینجا عبارت FAKE) رو وارد کردیم. در قسمت Base URL هم آمدیم و به این کتابخونه فهموندیم که به جای این که به APIهای خود OpenAI متصل بشه، به لوکال هاست ما متصل بشه.

در واقع کل کار رو اینجا انجام دادیم و حالا مونده یک مرحله! اون هم اینه که یک چت با مدل مورد نظر بسازیم:

response = client.chat.completions.create(
 model = "gpt-4o", 
 messages = [
   {
     "role" : "user",
     "content" : "Hello"
   }
  ],
)

و همونطوری که می‌بینید فرمت پیام‌های ما، فرمت چت و اسم مدلمون هم gpt-4o گذاشتیم. البته امکان استفاده از مدل‌های دیگر هم هست ولی اینجا با gpt-4o کار داشتیم 😁

و حالا وقتشه که نتیجه رو در ترمینال ببینیم:

print(response.choices[0].message.content)

و تمام!

کد کامل

کد کامل این پروژه هم به این شکل خواهد شد:

from openai import OpenAI

client = OpenAI(
 api_key = "FAKE", 
 base_url = "http://localhost:1337/v1"
)

response = client.chat.completions.create(
 model = "gpt-4o", 
 messages = [
   {
     "role" : "user",
     "content" : "Hello"
   }
  ],
)

print(response.choices[0].message.content)

ملاحظات قانونی

احتمالا شما هم الان نگران این هستید که این نوع استفاده، می‌تونه برای شما دردسر قانونی درست کنه. حقیقتش رو بخواهید خیر. این کتابخونه (و سایر کتابخونه‌های مشابه) می‌تونن کاملا قانونی باشن اگر شما از مدل‌های اوپن سورس موجود استفاده کنید.

مثلا من پیشنهاد می‌کنم برای خیلی از پروژه‌هایی که با g4f قراره بسازید از mixtral-8x22b استفاده کنید. هم خوبه، هم اوپن سورسه و هم فارسی می‌فهمه. یا مثلا llama-3.1-70b و llama-3.1-405b و …

در کل میخوام بگم که می‌تونیم این موضوع رو کاملا درست و قانونی هم در دستان خودمون داشته باشیم و لذت هم ببریم 😎

جمع‌بندی

در دنیای امروز که ابزارها دارند حرف اول رو می‌زنن، خیلی مهمه که بدونیم چطور می‌تونیم به ابزار خوب برسیم. این پست، یکی از اهدافش این بود که به شما نشان بده ابزارهای خوب رایگان هم وجود دارند که شما بتونید بدون مشکل، باهاشون کار کنید.

احتمالا در آینده، باز هم ابزار یا API خوب در حوزه هوش مصنوعی و بخصوص هوش مصنوعی زایا (Generative AI) معرفی کنم. امیدوارم که موفق و موید باشید و این آموزش به دردتون خورده باشه.

ضمنا، لطفا از مدل‌های تجاری به صورت غیرقانونی استفاده نکنید 😁

برنامه نویسی, توسعه سیستم عامل

استفاده از LLMها بعنوان سیستم‌عامل، آیا با نسل جدیدی از سیستم‌های عامل روبرو خواهیم شد؟

سپتامبر 1, 2024 محمدرضا حقیری 4 دیدگاه

در یکی دو سال گذشته، هوش مصنوعی زایا یا همون Generative AI به شکل عجیب و غریبی رشد پیدا کرده و در تقریبا تمام عرصه‌ها از تولید متن، تصویر، موسیقی و حتی ویدئو و فایل‌های سه‌بعدی، استفاده‌های جالبی ازش شده. همچنین باید گفت که تقریبا حجم بسیار زیادی از این توجه، بخاطر ارائه ناگهانی ChatGPT بود و بعد از اون هم مدل‌های اوپن سورسی مثل لاما (و فرزندانش!).

در دنیای تولید چندرسانه‌ای هم که ناگفته نماند، مدل‌هایی مانند Stable Diffusion یا مانی، تا حد خوبی توجه مردم رو به خودشون جلب کردند و علاوه بر این که مورد توجه مردم عادی بودند، مورد توجه بازی‌سازان، طراحان و … هم قرار گرفتند و این خودش یعنی پذیرش ابزارهای جدید، چه بخواهیم و چه نخواهیم، صورت خواهد گرفت.

اما جای یک چیزی این وسط خالیه، اون هم اینه که «سیستم‌عامل» که شاید قدیمی‌ترین مفهوم زنده در رایانش شخصی بوده، چه تغییراتی رو برای پذیرش ابزارهای هوش مصنوعی، متحمل خواهد شد؟

سیستم‌عامل چیست؟

سیستم‌عامل یک لایه از نرم‌افزارهای سیستمیه که ارتباط بین سخت‌افزار و کاربر رو فراهم می‌کنه. در واقع تصور کنید اگر روی گوشی همراه شما iOS یا اندروید نباشه. یا مثلا لپتاپ و سیستم خانگی شما، مجهز به ویندوز یا مک یا لینوکس نباشه. چه استفاده‌ای ازشون میشه کرد؟ عملا هیچ.

در واقع سیستم‌عامل میشه بستری که ما بتونیم نرم‌افزارهای مختلف مثل فتوشاپ، تلگرام، آفیس، فایرفاکس و … رو اجرا کنیم و به نوعی تسهیل‌گر ارتباط بین نرم‌افزارها با منابع در دسترسشون میشه. حالا که می‌دونیم سیستم‌عامل چیه، یکم اون رو بشکافیم.

سفر به اعماق گنو/لینوکس

احتمالا اسم «لینوکس» یا «گنو/لینوکس» یا «اوبونتو» و امثالهم، به گوشتون خورده، نه؟ اگر از خوانندگان بلاگ من باشید که بیشتر از این‌ها به گوش شما خورده و احتمالا از BSD و Solaris و OpenIndiana و … هم خوندید 😁

گنو/لینوکس یک سیستم‌عامل کامله که از دو بخش تشکیل شده: گنو و لینوکس! حالا گنو چیه و لینوکس چیه؟ با هم بررسی می‌کنیم.

لینوکس: یک هسته یا کرنله که در ابتدای دهه ۹۰ میلادی، توسط شخص شخیص لینوس بندیکت تروالدز که در اون زمان ۲۱ سالش بوده، ساخته شده. این هسته سیستم عامل (kernel) وظیفه‌ش مدیریت فرایندها و سخت‌افزاره. در واقع این هسته، میاد می‌شینه وسط سیستم‌عامل و اون تعامل لازم رو با سخت‌افزار و فرایند‌ها برای ما تسهیل می‌کنه.
گنو: مجموعه‌ای از ابزارهاست که بعنوان بخشی از جنبش نرم‌افزار آزاد در سال ۱۹۸۳ میلادی به رهبری ریچارد متیو استالمن ساخته شده. گنو، سیستم‌عاملی بود استالمن به عنوان یک اکت اعتراضی نسبت به سیاست‌های AT & T در قبال کد منبع یونیکس، شروع به ساختش کرد.

حالا گنو/لینوکس چیه؟ خیلی ساده بخواهیم بگیم، گنو یک سری ابزارهای مورد نیاز کاربره و در فضای کاربر یا User Space اجرا میشه. اگر دوست دارید بیشتر در موردش بدونید، می‌تونید مستندات گنو و استانداردهای مربوطه رو مطالعه کنید.

ولی خب بذارید یکم ساده‌ترش کنیم. فرض کنیم که ما یک هسته سیستم‌عامل داریم که داره به خوبی و خوشی، با سخت‌افزار ارتباط می‌گیره و کارش رو می‌کنه. اما نیاز داریم که یوزر بتونه از طریقی، فرایندهای مد نظر خودش یا همون «برنامه‌»ها رو اجرا کنه. به همین خاطر نیاز به یک «پوسته» یا shell هم داریم. مثلا گنو، یک ابزار بسیار خوبی داره به نام bash که این کار رو انجام می‌ده.

از طرفی، اصلا وقتی برنامه رو نوشتیم، با چی باید اجراش کنیم؟ اینجا ابزارهایی مثل GNU Binutils خودشون رو نشون میدن. البته لازم به ذکره که با ابزارهایی مثل GNU Compiler Collection یا GCC هم برنامه‌ها رو می‌تونیم بسازیم.

خب الان فهمیدیم که کاربر، نیاز به فضای مختص خودش روی سیستم‌عامل داره. برای این که بتونه برنامه‌ها رو اجرا کنه، بسازه و تغییرشون بده. گذشته از این برای بررسی و پردازش بیشتر داده‌هایی که از شبکه میاد، داده‌هایی که در فرم‌های خاصی مثل تصویر و … داریم و …؛ نیاز داریم که این فضای کاربر رو داشته باشیم.

پس هوش مصنوعی چه؟ از آن نور وارد می‌شود

خب اینجا جا داره که ما بریم و کمی با مفاهیم و مطالب مربوط به هوش مصنوعی آشنا شیم.

چرا که احتمالا شما تا الان دارید پیش خودتون فکر می‌کنید که خب احتمالا این مطلب در مورد یک کلاینته که برای ابزارهای هوش مصنوعی نوشته شه و روی سیستم‌عامل ما نصب شه.

خیلی بی‌راه فکر نمی‌کنید البته، ولی بیایید کمی ابتدا LLMها رو بشناسیم و بعد بریم سراغ این که LLM OS یا «سیستم‌عامل مدل زبانی بزرگ» چطور کار خواهد کرد برامون 🙂

شناخت بهتر LLMها

قبلا در پست مربوط به مارال ۷ میلیارد پارامتری (لینک) و پستی که درش از چیرگی زبان انگلیسی روی دنیای AI شکایت و گله کرده بودم (لینک) در مورد LLMها صحبت کردم. اما بهتره که کمی در موردشون بیشتر با هم بدونیم.

LLM چیست؟

مدل‌های زبانی بزرگ (به انگلیسی Large Language Model) مدل‌ها و ابزارهای مبتنی بر هوش مصنوعی هستن که با تکنیک‌های یادگیری عمیق مثل RLHF یا یادگیری تقویتی با بازخورد انسانی تربیت میشن. در واقع این مدل‌ها یک هدف بیشتر ندارند: بیشترین نزدیکی به زبان آدمیزاد.

یکی از دلایلی که مدل‌هایی مثل GPT-2 یا Bloom زمان خودشون خیلی ترکوندند، این بود که اون موقع بهترین شکل ممکن رو برای تولید زبان داشتند اما خب GPT-3 و LLaMa 3.1 و …؛ به شدت در این زمینه بهتر عمل کردند.

مدل‌های زبانی بزرگ، معمولا اینطوری کار می‌کنند:

همون‌طوری که می‌بینید، کاربر یه محتوایی رو برای LLM فراهم می‌کنه که اینجا گفته recite the first law و بعد مدل، اومده بر اساس داده‌ای که انسان‌ها پیش‌تر بهش دادند، یک سری کلمه پیشنهاد میده. مثلا اینجا، در حال بیان قوانین سه‌گانه رباتیک ایزاک آسیموفه.

اما از این موضوع بگذریم، یک بحث دیگر هم که LLMها به خوبی می‌تونن درکش کنن و این برمی‌گرده به تعداد متغیرهایی که در داده ورودی دیدن، ارتباط معنایی بین کلمات می‌تونه باشه که خب با توجه به این که عمده LLMها در حال حاضر Human Feedback یا بازخورد انسانی در مرحله پیش‌آموزششون دخیله، چیز عجیبی نیست و ناظرین انسانی، بهشون بازخورد لازم رو میدن.

کاربردهای LLMها

کاربردهای LLMها از چیزی که فکر کنید بسیار بیشتره. در حال حاضر بسیاری از پروژه‌هایی که به شکل‌های مختلفی دارند با «متن» سر و کله می‌زنن، به نحوی LLM رو وارد کار و زندگیشون کردند. به همین خاطر هم لازم به ذکره که نمیشه دسته‌بندی خاصی ارائه کرد و چیزی که در ادامه فهرست می‌کنم در واقع بیشترین کاربردهای مدل‌های بزرگه.

تولید محتوا برای وبلاگ، وبسایت و MVP
تولید محتوا برای ویدئوهای یوتوب و اینستاگرام
تولید کد
تولید داستان برای بازی‌های رایانه‌ای
تولید کدهای SQL
و …

همونطوری که می‌بینید، به شدت این عزیزان، در حال استفاده در زمینه‌های مختلفن و خب یکپارچگی این‌ها با سیستم‌های عامل هم خودش یک داستان جداست.

کدام سیستم‌عامل‌ها، به هوش مصنوعی مجهز شدند؟

در حال حاضر مایکروسافت با ارائه Copilot و اپل با ارائه Apple Intelligence تا حد خوبی، هوش مصنوعی رو به سیستم‌های عاملشون آوردند.

همچنین اگر اشتباه نکنم دو سه ماه پیش بود که مایکروسافت ایده‌ای به اسم Copilot+PC رو مطرح کرد که کوپایلت، بیاد و حرکات کاربر رو زیرنظر بگیره و بعد بهش پیشنهاد بده چطور می‌تونه بهتر از کامپیوترش استفاده کنه و خب می‌دونید چه فاجعه حریم‌ خصوصی می‌تونست بشه!

اما در حال حاضر، این که LLMها بتونن سیستم‌عامل رو «کنترل کنن» چیزیه که در حد چندین پروژه آزمایشگاهی مونده و به اون شکل، تجاری‌سازی نشده. چیزی که این همه تا اینجا در موردش خوندید و از اینجا به بعد قراره تازه جذاب باشه :))

رویای کارپاتی: سیستم‌عامل مبتنی بر LLMها

چندی پیش، آندره کارپاتی (که از بزرگان هوش مصنوعی و علوم کامپیوتره) در یوتوب ویدئوی با عنوان مقدمه‌ای بر LLMها منتشر کرد و چیزی حدود یک ساعت در مورد پتانسیل‌های این مدل‌ها، حرف زد و در نهایت ایده LLM OS رو مطرح کرد 🙂

سیستم‌عامل مبتنی بر LLM چطور قراره کار کنه؟

خب بیایید بریم به همون گنو/لینوکس. وقتی شما «ترمینال» رو باز می‌کنید، قراره چه اتفاقی بی‌افته؟ آفرین قراره shell رو ببینید. بعدش چه اتفاقی می‌افته؟ شما شروع می‌کنید به وارد کردن دستورات سیستم‌عامل. مثلا با دستور ls می‌تونید بیایید و محتویات یک پوشه رو ببینید.

حالا فرض کنید جای این که دستورات ترمینال لینوکس رو حفظ کنید، به فارسی یا انگلیسی، برای کامپیوترتون توضیح بدید. این دقیقا میشه کاری که LLM قراره در سیستم‌عامل برای ما انجام بده.

چطور این اتفاق می‌افته؟ در اکثر زبان‌های برنامه‌نویسی ما قادر هستیم که از subprocessها استفاده کنیم. یعنی با کمک subprocessها و LLM می‌تونیم اینطوری کار رو پیش ببریم:

شما به سیستم‌عامل می‌گید که «برنامه X رو باز کن»
سیستم‌عامل از طریق یک رابط متنی یا صوتی، این دستور رو از شما می‌گیره و به LLM ارسال می‌کنه.
حالا LLM طوری تنظیم شده که اون رو به یک subprocess تبدیل کنه و اجراش کنه، کد مربوطه رو تولید و اجرا می‌کنه.
بعد از اجرا، برنامه X اجرا میشه (اونطوری که ازش خواستید) و نتیجه توسط LLM به شما گفته میشه.

خیلی دقیق بخواهید بهش نگاه کنید، میشه شبیه چیزی مثل Jarvis در فیلم‌های Iron Man یا حتی «سامانتا» در Her. حتی میشه گفت تا حد خوبی شبیه The Machine در سریال Person of Interest هم هست.

چالش‌های LLM OS

اما این ایده هم مثل سایر ایده‌های هوش مصنوعی، خالی از ایراد و چالش نیست. چندتا از چالش‌های بزرگش رو با هم بررسی کنیم:

LLM های قابل اجرا روی سیستم‌های شخصی معمولا خوب نیستن. خوب هم باشند معمولا به شدت کُند هستند.
LLMهای خوب، عمدتا باید از طریق وب در دسترس باشند.
این که افسار کامپیوتر رو بدیم دست یک موجودیت آنلاین، کمی با ایده حریم خصوصی در تضاده، بخصوص اگر بخواهیم این پروژه رو مبتنی بر لینوکس یا BSD پیش ببریم.

همین سه چالش کافیه تا فعلا چنین چیزی رو به درستی نتونیم داشته باشیم. با این که تلاش‌هایی هم در موردش شده.

جمع‌بندی

در نهایت باید گفت که ما کم کم به سمتی می‌ریم که کل «رابط کاربری» ما خلاصه بشه در «زبان». یعنی عمده رابط‌های کاربری از ما متن یا صدا بگیرند و تبدیلش کنن به کارهایی که ازشون خواستیم و خب این اتفاق خوبی می‌تونه باشه.

و خب با ظهور LLMها و پیش‌رفت زیرساخت‌های سخت‌افزاری، این امر با سرعت بیشتری در حال به وقوع پیوستنه و شما احتمالا تا چند سال دیگر، بتونید توزیعی از لینوکس رو نصب کنید که چنین امکانی در اختیارتون بذاره 🙂 یا روی مک و آیفونتون چنین امکانی داشته باشید.

در کل، پیشرفت جامعه بشری به کمک AI انتهای جالبی خواهد داشت، البته به شرط این که براش انتهایی بشه متصور شد!

موفق و خندون باشید.

رایانه و اینترنت

پس از چهار سال – ناگفته‌هایی از تیرماه ۹۹ و انجمن نام

آگوست 13, 2024 محمدرضا حقیری دیدگاه‌تان را بنویسید:

در تابستان سال ۹۹ و در بحبوحه همه‌گیری (یا شاید بهتر باشه بگیم دنیاگیری) بیماری کووید-۱۹، اتفاقات جالبی در دنیای نرم‌افزار آزاد و متن‌باز ایران رخ داد. این اتفاقات، شامل تشکیل یک بنیاد مردم نهاد، انتخابات و مجمع اون و همچنین حواشی ایجادشده در این موضوع بود که شاید باورتون نشه ولی در عرض شاید ۴۸ ساعت اکثر این اتفاقات رخ داد.

برای این که بتونید بهتر با این ماجرا آشنا بشید، اول بهتره این مطلب رو بخونید (خوندن تک‌تک مطالب لینک شده هم توصیه میشه) و بعد برگردید اینجا به بلاگ من.

به جهت رعایت انصاف، من از کمی قبل از تیر ۹۹ شروع به بیان ماجرا می‌کنم و سپس به تیر ۹۹ می‌رسم.

اعلام وجود انجمن نام (نرم‌افزار آزاد و متن‌باز)

من شخصا از سال ۸۹ کاربر فروم اوبونتو بودم و از سال ۹۱ به صورت رسمی در جامعه نرم‌افزار آزاد فعال بودم. عمده فعالیت من با پروژه جبیر (+، +، +) شناخته میشه و احتمالا می‌دونید که جامعه هم برخورد درستی با این پروژه نداشته (+).

اما به قولی، باید از افراد و اتفاقات گذشته گذر کرد و رفت سراغ اتفاقات جدیدتر و برای من شخصا، بحث انجمن نام چنین چیزی بود. این رو هم به شما بگم که از همون سال ۹۰-۹۱ من زمزمه‌هایی می‌شنیدم از این که یک موجودیت «نزدیک به دولت» برای نرم‌افزار آزاد باید وجود داشته باشه و از دل خود جامعه هم بیرون آمده باشه و این حرف‌ها.

اما این موضوع تا سال ۹۸ ادامه داشت. دقیقا در آخرین جلسه لاگ تهران پیش از قرنطینه و حبس خانگی کرونا، دانیال بهزادی عزیز – که چهره و نام شناخته‌شده نرم‌افزار آزاد ایران هستند – اومد و انجمن رو معرفی کرد. در همون جلسه افرادی بودند که خب گفتند به این دلیل و اون دلیل دوست ندارند چنین موجودیتی باشه. یک عده هم گفتند که خب باشه، ما نیستیم. یک عده هم گفتن باشه، ما هم هستیم. تقریبا برخورد درست و نرمالی که با هر اتفاقی باید رخ بده، رخ داد.

این بحث تا حد زیادی مسکوت موند و ادامه‌دار نشد (بحث کرونا هم پیش آمد قاعدتا و این خودش یک نکته مهم در این بحث‌هاست). اما خب در سال ۹۹ اعلامیه‌های انجمن مجدد منتشر شدند…

اعلام انجمن برای مجمع

در سال ۹۹ از حدود اردیبهشت‌ماه، اعلامیه‌هایی از سمت انجمن می‌آمد که از افراد حاضر در جامعه میخواست برای شرکت در مجمع و همچنین دست گرفتن کنترل مجمع، اقدام کنند.

در واقع شرایط کاندیداتوری هم بسیار ساده بود. شما کافی بود یک شخص زنده بالای ۱۸ سال و دارای تابعیت ایران به همراه سابقه فعالیت در نرم‌افزار آزاد می‌بودید. در واقع شاید راحت‌ترین روش کاندیداتوری 🙂

حتی یادمه که تا قبل از روز مجمع، در مورد وعده وعیدهای کاندیداها – که من هم یکیشون بودم – چیزی پرسیده نشد…

روز مجمع

روز مجمع، همه ما در ساختمان مربوطه جمع شدیم. چه افرادی که نامزد شرکت در انتخابات انجمن نام بودند، چه افرادی که خودشون رو متعلق به نرم‌افزار آزاد می‌دونستند و میخواستند اون روز در رای‌گیری شرکت کنند و در عین حال، نظرات و وعده‌های کاندیداها رو بشنوند.

و نکته جالب‌تر، حضور فعال دوست عزیزمان آقای مصطفی آهنگرها از خارج از کشور و به صورت برخط در مجمع بود، در حالی که خیلی از افرادی که گفته بودند برخط حضور دارند، حتی زحمت این که در نشست برخطی که اون روز خاص برای این منظور تهیه شده بود شرکت کنند رو به خودشون نداده بودند.

حالا بگذریم، رای‌گیری انجام شد. رای‌گیری جالب، منصفانه و از قضا درستی هم بود و پس از این رای‌گیری، این افراد به عضویت هیئت‌مدیره انجمن نام درآمدند:

احمد حقیقی
محمدرضا رازیان
الهام حصارکی
محمدرضا حقیری
علیرضا فریدونی
دانیال بهزادی
و چند تن دیگر از دوستان که حضور ذهن از نامشون پس از چهارسال ندارم و ازشون عذرخواهم.

پس از جلسه، تقریبا تمامی حضار اون جلسه مجمع به فضای سبزی پشت آن ساختمان رفتیم و راهبر اون جلسه فضای آزاد هم دوست عزیزمان «یه انقلابی» بود و در مورد دغدغه‌های خودش و اشخاص دیگر در مورد نرم‌افزار آزاد و متن‌باز، به ما گفت. یادمه که کمی صحبت شد، در مورد اهداف انجمن و حرف‌هایی که زدیم و … و بعدش خداحافظی کردیم. و اینجا شد شروعی بر یک پایان 🙂

حواشی آن روز پرماجرا

پس از این که خداحافظی کردیم، به خانه آمدیم و چند ساعتی گذشت. پس از چند ساعت، شبکه اجتماعی ایکس (پیش‌تر توییتر) رو باز کردم و دیدم که چند توییت، اشاره به نام من و پروژه جبیر داره.

بعد از اون، چندین پست و توییت دیگر دیدم که اشاره به موضوعی مانند «احتمال رانت» یا «رنگ کردن پروژه‌های اوپن سورس به نام ملی» یا «سوء استفاده از جامعه» و … و بستن این انگ‌ها به ما! و نکته جالب‌تر این که بسیاری از این افراد، اتکا به محتوای فردی داشتند که ید طولایی در تهدید و اخاذی به کمک پرونده‌سازی و فشار روانی داره و از همه جالب‌تر اینه که پرونده‌های قطوری هم برای خود اون افراد، به سبب بیان عقاید و مواضعشون ساخته بوده.

خلاصه از همه این موارد که گذشتیم، فشار روانی بسیار زیادی به ما وارد شد. یکی از اتفاقاتی که اینجا افتاد این بود که شخص مصطفی آهنگرها، بعنوان شخصی که اصلا در ترکیب هیئت‌مدیره انجمن نبود و صرفا عضوی از این انجمن شده بود (و طبیعتا بخاطر علاقه و حسی که به نرم‌افزار آزاد و متن‌باز داره) بیشترین فشار، توهین و تهمت رو متحمل شد و راستش رو بخواهید حتی هنوز هم با توجه به این که به شدت توسط «جامعه» اذیت میشه، در حال ادامه دادن مسیرشه (و این واقعا باعث میشه شخصا بهش غبطه بخورم).

این حجم توهین، تهمت و فشار کافی نبود انگار و چندتن از افرادی که نرم‌افزار آزاد رو انگار ارثیه اجدادی خودشون می‌دونستند عریضه‌ای نوشتند که اشاره به مطالب کاملا non-existent داشت! و خب با اتکا به نقاط ضعف احساسی مردم و گارد طبیعی مردم نسبت به موجودیت‌های دولتی و نزدیک به دولت؛ حدود ۴۶۰ نفر قانع به امضای آن عریضه شدند. نکته جالب اینه که در کامنت‌های آن عریضه منحوس هم بسیاری فحش داده بودند و بسیاری هم تهدیدهای جانی و … کرده بودند و این هم در نوع خودش جالب بود.

استعفای دست جمعی هیئت‌مدیره

خلاصه پس از تحمل حدود ۴۸ ساعت تنش، ما تصمیم گرفتیم به صورت دست‌جمعی، استعفای خودمون رو از هیئت‌مدیره انجمن نام اعلام کنیم. گرچه این استعفا تا حد زیادی از فشارهای روانی روی ما کاست، اما بگذریم که همچنان بسیاری از ترکش‌های اون سال با ما هست و به نوعی تبدیل به یک اسباب ابراز رذالت توسط عده‌ای شده و هنوز هم یادآوری اون ماجرا برای من شخصا دردناکه 🙂

و این رو هم باید بگم علیرغم کاهش فشارها، معتقدم استعفا خیلی کار درستی نبود (در اون شرایط بهترین کار بود) چرا که در نهایت، چند نفر که اسم‌های آشنا به گوش جامعه هستند برای اداره چنین موجودیتی بهترند یا افرادی که هیچ اسم و رسمی در این جامعه ندارند؟!

سخن آخر با جامعه پیرامون تیر ۹۹ و مسائل مشابه

جامعه عزیز نرم‌افزار آزاد ایران، ما در جامعه کشورمون به قدر کافی با ناملایمی و بی‌رحمی، روبرو هستیم. تقریبا همه ما روزمون رو با اسنپی شروع می‌کنیم که صرفا برای لج‌بازی با پلتفرم اسنپ، کولرش رو روشن نمی‌کنه و از مسیریاب استفاده نمی‌کنه.

با افرادی روبرو هستیم که عامدانه در بانک، بیمه، وزارتخونه‌ها و … کارهامون رو انجام نمیدن. موقع برگشت به خانه دوباره همان سناریوی اسنپ رو شاهدیم.

در واقع جامعه نرم‌افزار آزاد و هرگونه جامعه آلترناتیوی، برای ما پناهگاهی میشه که از شر روزمرگی خلاص بشیم. در عین این که ما در این جامعه هستیم که یاد بگیریم و یاد بدیم. در این جامعه هستیم که علیه انحصار دیجیتال بجنگیم. در این جامعه هستیم که بسیاری از موارد و مواضعی که دانستن آنها برای مردم مهمه رو به گوششون برسونیم.

حالا فرض کنید که این جامعه هم بخواهد همونقدر ناملایم باشد. شخصا تا زمانی که افراد «قدیمی» و «تاثیرگذار» متوجه روش اشتباه خود در این حوزه نباشند، حاضر نیستم خودم رو بخشی از این جامعه بدونم. همونطوری هم که پیش‌تر گفتم، استفاده از مک یا ویندوز، آیفون داشتن، توییتر داشتن و …؛ هیچ کدام دلیلی بر این نیست که به نرم‌افزار آزاد، استالمن و … ارادتی نداشته باشم که اتفاقا ارادتی دوچندان دارم، اما ترجیح فعلا بر فاصله گرفتن از این جامعه است.

برنامه نویسی, رایانه و اینترنت

مارال‌چت آمد، ربات تلگرامی با مدل مارال هفتاد میلیارد پارامتری

ژوئن 21, 2024 محمدرضا حقیری دیدگاه‌تان را بنویسید:

زمستان پارسال، نخستین نسخه آلفای مدل بزرگ زبانی مارال را معرفی کردیم. یک مدل ۷ میلیارد پارامتری مبتنی بر Mistral که روی دیتای فارسی، تنظیم شده و در دسترس شماست. مارال در نسخه‌های اولیه، به شدت ضعیف عمل می‌کرد و خب البته در نسخه‌های اولیه، این موضوع اصلا چیز عجیبی نیست.

اما بعد از چندماه و با عرضه LLaMa 3 در نسخه‌های ۸ و ۷۰ میلیارد پارامتری توسط شرکت متا (فیسبوک سابق)، اوضاع کمی متفاوت شد. این مدل در پایه خودش، درک خوبی از زبان فارسی داره و Fine Tune کردنش روی زبان فارسی، کمی راحتتر شده. گذشته از این، درک بهتری از معنای متون هم داره و در خیلی از وظایف مثل کدنویسی، تولید متن و … به خوبی می‌تونه کمک کنه.

مارال‌چت

نسخه جدید مارال، که روی داده‌های «دنبال کردن دستورالعمل» یا Instruction following آموزش دیده، اسمش «مارال‌چت» بوده و اصولا یک نمونه مشابه ChatGPT به حساب میاد. از اونجایی که در حال حاضر در فاز MVP و Proof of Concept به سر می‌بره، بستر مورد نظر تلگرام انتخاب شد. این ربات در حال حاضر در تلگرام در دسترس شماست.

مارال‌چت، در دو نسخه ساخته شده یکی ۸ میلیاردی و دیگری ۷۰ میلیاردی که در حال حاضر، تصمیم و ترجیح بر آن بوده که مدل مدتی آزمایش بشه و پس از آزمایش، وزن‌های مدل‌ها در اختیار دوستانی که مایل به self hosting مدل هستند، قرار بگیره. به همین دلیل این مدل تا اطلاع ثانوی اوپن سورس نخواهد شد. اخبار انتشار سورس و وزن مدل هم در همین وبلاگ به زودی منتشر میشه.

دسترسی به ربات در تلگرام

برای این که به مارال‌چت دسترسی داشته باشید، فقط کافیه که از این لینک بهش مراجعه کنید. بعد از start زدن، مثل سایر ربات‌ها می‌تونید به سادگی ازش استفاده کنید.

امکانات ربات

ربات در حال حاضر دو قسم امکانات ارائه می‌ده، اول بپردازیم به امکانات پریمیوم یا پولی ربات که شامل اتصال به اینترنت و همچنین ویژن (پردازش تصویر) میشه.

اما امکانات رایگان ربات که در حال حاضر قادر به استفاده ازش هستید شامل این موارد میشه:

چت متنی: مانند ChatGPT و Poe و Gemini و … می‌تونید برای ربات پیام متنی ارسال کنید و پاسخ متنی هم دریافت کنید.
چت صوتی: اگر به ربات Voice Message ارسال کنید، ربات هم به شما پیام صوتی ارسال می‌کنه و پاسختون رو میده.
ساخت تصویر: ربات مارال به کمک پلتفرم هوش مصنوعی مانی، قادر به ساخت تصاویر با کمک هوش مصنوعی هم هست.

پیگیری اخبار مارال‌چت

به جهت پیگیری اخبار و اطلاع‌رسانی‌های مارال‌چت، می‌تونید به کانال اطلاع‌رسانی مارال‌چت در تلگرام بپیوندید. همچنین می‌تونید در گروه بازخوردها هم عضو بشید و بازخوردتون رو نسبت به نحوه پاسخ‌دهی و کیفیت پاسخ‌ها، اعلام کنید.

پروژه‌های بعدی

پروژه‌هایی مثل مانی، موسیقا (لینک پست بلاگ در موردش اینجاست) و مارال‌چت، پروژه‌هایی بودند که بدون تامین زیرساخت توسط اسپانسرهایی چون ایران‌سرور، تولیدشون برای ما غیرممکن بود. پروژه‌های بعدی ما هم عموما قراره در همین فضای هوش مصنوعی زایا و … باشند و خب اخبار خوبی رو در این تابستان، برای شما خواهیم داشت.

سخن آخر

در آخر، باید گفت چندسالی میشه که فضای هوش مصنوعی رو دارم رصد می‌کنم و هربار می‌بینم که چقدر پتانسیل هست و چقدر میشه در صنایع و موضوعات مختلف، کارهای هیجان‌انگیز و به قولی خفن کرد! و خب این موضوع هم به نوبه خود، می‌تونه کار کردن در این حوزه رو جذاب‌تر کنه.

از طرفی، مشخصا هنوز خیلی‌ها use case درستی برای AI در صنایع و مشاغل و صنف خودشون پیدا نکردند و این خودش می‌تونه تا حد زیادی، مشکل‌ساز بشه. اما خب لازم به ذکره که این use caseها معمولا وقتی به بار می‌شینن که ابزارهایی مانند مارال‌چت یا مانی ساخته بشند و افراد بتونن استفاده‌ای در صنعت خودشون برای این موضوعات پیدا کنند. امیدوارم که از مارال‌چت و امکاناتش استفاده کنید و برای شما، مفید واقع بشه 🙂

موفق باشید.

برنامه نویسی, توسعه سیستم عامل

پارچ، روحی تازه در کالبد اکوسیستم گنو/لینوکس ایران

فوریه 19, 2024 محمدرضا حقیری 4 دیدگاه

اگر شما هم از «قدیمی»های جامعه نرم‌افزار آزاد و متن‌باز ایران باشید، احتمالا با خیلی از پروژه‌هایی که هدفشان ساخت یک توزیع گنو/لینوکس متناسب با نیاز روز کاربر بوده، آشنایید. چرا که به درازای تاریخ ورود گنو/لینوکس به ایران، تلاش برای ساخت توزیع ایرانیزه‌شده هم بوده.

اما متاسفانه، یک نگاه اجمالی به دیستروواچ (لینک) می‌تونه به ما نشون بده که تمامی این پروژه‌ها در نقطه‌ای متوقف شدند. البته لازم به ذکره که پروژه‌هایی مانند زمین، کاپریس و جبیر هم بودند که متاسفانه در دیستروواچ مدخل مرتبط با خودشان را نتونستن داشته باشن.

اما چند وقت پیش، توجهم به پروژه‌ای جلب شد که اتفاقا کاملا زنده‌ست و خیلی هم خوب داره پیش میره. پروژه‌ای با نام «پارچ‌لینوکس» که در واقع ترکیبی از واژه‌های Persian و Arch Linux می‌تونیم در نظر بگیریم. این ترکیب، موجب ساخت یک اسم بامزه هم شده که به نظرم این خودش می‌تونه تا حد خوبی، ارزش برندینگ خلق کنه برای این محصول. برای دریافت این توزیع و اطلاعات بیشتر می‌تونید به وبسایتش (لینک) مراجعه کنید.

آشنایی اجمالی با آرچ

احتمالا اگر کاربر گنو/لینوکس باشید، اسم آرچ رو به وفور شنیدید. یک توزیع نه‌چندان دوست‌داشتنی که بخاطر مدل عرضه «غلتان» معروفه. البته گذشته از اون، بخاطر این معروفه که همه چی رو «ساده» نگه داشته و از قاعده KISS پیروی می‌کنه.

در واقع، اگر شما در این زمینه تازه‌کار باشید، آرچ رو اصلا و ابدا نمی‌تونید بدون کمک یک حرفه‌ای‌تر، ویدئو یا مستند خاصی نصب کنید. اما خب از طرفی هم آرچ امکانات جالبی داره (مثل AUR) و به نسبت توزیع‌های سنتی‌تر (دبیان مثلا) در بعضی سخت‌افزارها می‌تونه کارکرد بهتری از خودش نشون بده.

یکی از دلایلی که تعداد نسبتا خوبی توزیع مبتنی بر آرچ‌لینوکس داریم، دقیقا همینه. توزیعیه که چیزهای خوبی برای عرضه داره ولی خب در دسترس همه نیست. به همین خاطر هم خیلی از افرادی که بیشتر من و شما با آرچ آشنان، اومدند و توزیع‌هایی ساختند که به ما هم کمک کنه ازش لذت ببریم.

بریم سراغ پارچ!

من به سهراب (سازنده پارچ) قول یک «نقد منصفانه» دادم و خب، اینجا هم می‌ریم که به صورت منصفانه نقدشون کنیم.

اول بگم که با شناختی که از پروژه پیدا کردم، سازندگان توزیع، روی KDE بیشتر مانور دادند و وقت گذاشتن (و البته این به معنای بد بودن سایر نسخه‌ها نیست) و اگر سیستم خوبی دارید، به نظر من بهتره مستقیم برید سراغ این نسخه.

من از اونجایی که میخواستم روی ماشین مجازی تست کنم و بعد به یک لپتاپ قدیمی ببرمش، نسخه XFCE رو دانلود و نصب کردم.

برخوردهای اولیه

پس از این که تصویر ISO پارچ رو بوت کردید، این صفحه به شما نمایش داده میشه:

طرح پس‌زمینه، جذاب و ایرانیه. معمولا خیلی از توزیع‌های مشابه روی این صفحه پس‌زمینه خاصی نمی‌ذارند. پس این هویت بصری، به نظرم تا اینجا یک نقطه قوت برای این توزیع بوده.

پس از این که گزینه اول رو انتخاب کنیم، به این صفحه می‌رسیم:

اینجا برام جالب بود. عموما XFCE در چنین توزیع‌هایی، پنلی به تقلید از ویندوز در پایین صفحه دارند، یا این که نرم‌افزارهایی مثل cairo-dock یا Plank رو پایین صفحه قرار میدند و پنل رو به بالا منتقل می‌کنند (به تقلید از macOS) که خب در اینجا کلا شکل متفاوتی از پنل xfce رو شاهدیم. پنل که گوشه سمت چپ صفحه نمایش قرار گرفته و امکان خوبی برای استفاده از فضای افقی مانیتور فراهم می‌کنه.

مورد بعدی، Welcome Screen جذاب این توزیعه. این هم از مواردیه که در توزیع‌هایی مثل پارچ، خیلی کمتر به چشم میخوره. ولی خب تا اینجا پارچ بسیار فراتر از یه ریمستر ساده از آرچ خودش رو نشون داده.

نصاب

مثل خیلی از توزیع‌های این روزها، پارچ هم از کالامارس برای نصب خودش روی دیسک شما استفاده می‌کنه و خب وقتی لوکیشن شما رو بر اساس IP ایران تشخیص بده، فارسی میشه و سیستم‌عامل هم فارسی نصب می‌کنه.

در نصاب تفاوت خیلی زیادی با سایر توزیع‌ها مشاهده نمی‌کنیم که این هم می‌تونه یک نقطه قوت محسوب بشه. چرا که حس آشنایی برای کاربرانی که از سایر توزیع‌ها میان داره.

به همین خاطر، نماگرفت‌های بیشتری از نصاب اینجا قرار نمی‌دم.

پروسه نصب، حدود ۳-۴ دقیقه طول می‌کشه و بعد از اون به این صفحه می‌رسیم:

و اینجاست که با یک ریبوت، به دنیای پارچ می‌ریم 🙂

تست پارچ پس از نصب

راستش یکم نقدم اینجا قراره تند بشه به چندین دلیل. نخستین دلیل اینه:

وقتی در syslinux که موقع بوت شدن ISO دیدیم اون پس‌زمینه زیبا به چشم میخوره، انتظار داشتم در گراب هم همون شمایل رو ببینم. با توجه به این که VirtualBox دارم انتظار لود شدن کامل plymouth نداشتم (اگر توزیع داشته باشه) ولی انتظار گراب زیباتری رو داشتم. گرچه پس‌زمینه گراب فقط یه عکسه و تغییری در کارکرد سیستم نداره.

اما مشکل اصلی من، بعد از بوت شدن شروع شد. پروسه بوت، کاملا درست طی شد ولی SDDM (مدیر نمایشگر) درست کار نکرد و مجبور شدم با یکم دانش لینوکسی‌ای که داشتم، وارد محیط گرافیکی بشم.

البته نکته خوب اینجاست که این مورد رو سریعا به سازندگان توزیع اطلاع دادم و راه‌حل سریعی براش ارائه دادند و از اون گذشته، در برنامه قرار دادند که در ریلیزهای بعدی این مشکل پیش نیاد. این پشتیبانی جامعه‌محور، برای من جالب و تحسین‌برانگیز بود.

محیط گرافیکی و عملکرد آن

خب، پس از فیکس کردن SDDM چنین صفحه‌ای رو می‌بینیم:

و پس از ورود پسورد، به محیط زیبای XFCE وارد می‌شیم:

برای تست یه سری موارد هم، ترمینال رو باز کردم و GIMP رو روی پارچ نصب کردم و همه‌چی خیلی خوب و روان پیش می‌رفت.

جمع‌بندی

برخلاف خیلی از توزیع‌های جدیدی که هرروز ایجاد می‌شن، پارچ تا حد خیلی خوبی حرف برای گفتن داره. یکی از دلایلش هم اینه که سیستم پایداری خوبی داره و تا الان، خبری از این که سیستم کلا از کار بیفته یا سر نصب بسته‌ها کرش کنه؛ نبوده.

در کل تجربه بسیار خوبی برای من رقم زد، آن هم در ویرچوال باکس مک (که احتمالا می‌دونید بلای عالمه) اما خب من رو داره قلقلک می‌ده که بعنوان سیستم‌عامل اصلی کامپیوتر قدیمی، ازش استفاده کنم.

حتی با توجه به سخت‌افزار لپتاپ قدیمی (پردازشگر i5 نسل چهارم و ۱۶ گیگابایت حافظه) عجیب نیست که نسخه‌های KDE یا GNOME هم بتونم بدون مشکل اجرا کنم. قطعا پس از نصب روی ماشین واقعی هم نقد مجددی بر این توزیع، خواهم نوشت.

در پایان و بعنوان حسن ختام هم باید بگم که مایه خوشحالیه که در شرایطی که هیچ‌کس به فکر جامعه نرم‌افزار آزاد نیست، چنین پروژه‌هایی زنده هستند و به باقی دوستان، امید می‌دن.

موفق و موید باشید.

برنامه نویسی

چگونه رمز موفقیت میدجرنی شکسته شد؟ نخستین دیدار با مانی ۴

ژانویه 23, 2023 محمدرضا حقیری 4 دیدگاه

پس از یک مدت طولانی ننوشتن، بالاخره برگشتم تا بخوام در مورد مانی صحبت کنم. فکر کنم مدتهای طولانیه که این پروژه رو شروع کردم ولی خب هربار به یک دلیل خاصی، از نوشتن محتوای فارسی در موردش صرف نظر کرده بودم. اما این بار آمدم تا با قدرت در مورد مانی، میدجرنی، دالی و سایر دوستانی که به کمک هوش مصنوعی برای شما نقاشی جنریت می‌کنن صحبت کنم.

ابتدا بذارید کمی از میدجرنی صحبت کنم.میدجرنی یک ابزار هوش مصنوعیه که در پیام‌رسان اجتماعی دیسکورد داره استفاده می‌شه و مردم با کمکش تصاویر جذابی تولید می‌کنند. میدجرنی، همیشه چند مرحله از باقی تولیدکنندگان تصویر جلوتر بود و همین باعث شده بود که خیلی‌ها حتی از من بپرسند «چرا مثل اون تصویر تولید نمی‌کنی؟» و در نهایت من هم به این نتیجه رسیدم که باید ته و توی این مدل خاص رو دربیارم و مانی رو بهش نزدیک یا ازش بهتر کنم. در این پست، قصد دارم در مورد پروسه کارم بنویسم.

تاریخچه مانی

پارسال همین موقع‌ها (حوالی شروع سال نوی میلادی، در این حد که حتی یادمه که جنگ اکراین هم حتی شروع نشده بود) در خیلی از شبکه‌های اجتماعی می‌دیدم که دوستان دیگری دارند با کمک هوش مصنوعی، نقاشی تولید می‌کنند و خب حقیقتا من هم با خودم گفتم که بهتره من هم سراغ این قضیه برم.

اون موقع، ابزاری به اسم VQGAN بود که با کمک CLIP می‌تونست ورودی‌های متنی رو به تصویر تبدیل کنه اما خروجی‌ها خیلی خوب نبودند و خیلی از سایر رقبا عقب بود. بهرحال این نقطه شروع خوبی بود و با یادگیری این ابزار و این که چطور کار می‌کنه، موفق به ساخت مدل‌ خودم مبتنی بر VQGAN+CLIP شدم.

اون موقع خیلی راضی نبودم و بیشتر میخواستم، اما حقیقتا ابزار آزاد و متن‌باز خوب دیگری در دسترس نبود که بخوام روی اون کار کنم تا این که با Latent Diffusion آشنا شدم که تصاویر قشنگ‌تر و بهتری تولید می‌کرد اما اون هم هنوز خیلی جای کار داشت.

مدت‌های زیادی، در نظر داشتم که پروژه «مانی» رو پیش ببرم اما پایه مناسبی نداشتم. اون‌هایی که می‌شد به راحتی به قولی پیاده‌سازی یا حتی Fine Tune بشند خروجی خوبی نداشتند و اون‌هایی که می‌تونستند خروجی‌های خوبی تولید کنند هم آموزش دادن و فاین‌تیون کردنشون منابع بسیار بسیار زیادی می‌خواست.

ظهور Stable Diffusion

اوضاع در حدود مردادماه امسال، خیلی عوض شد. یک‌باره شرکتی به اسم Stability AI (لینک) تصمیم گرفت یک مدل تولید تصویر متن‌باز ارائه کنه به اسم Stable Diffusion که خب این خودش می‌تونست یک نقطه عطف در تولید تصویر و در کل اثر هنری به کمک هوش مصنوعی محسوب بشه.

وقتی این مدل منتشر شد، مجددا مشکلی وجود داشت اون هم این بود که فاین‌تیون کردن این مدل، منابع زیادی میخواست تا این که نسخه یک و نیم این مدل، منتشر شد (لینک) که دقیقا همراهش، یک یا چند برنامه‌نویس باحال دیگر هم بودند که تکنولوژی Dream Booth گوگل رو با کمک Stable Diffusion پیاده کرده بودند. اینجا بود که فاین‌تیون کردن این ماجرا، به سادگی امکان‌پذیر بود.

اما به خوبی Midjourney نبود…

حالا یک مشکلی وجود داشت. مشکل این بود که تصاویر علیرغم زیبایی بصری‌ای که داشتند و درک و فهمی که مدل از ورودی‌ها داشت، به خوبی میدجرنی نبودند.

البته این نگرانی من نبود، عمدتا نگرانی افرادی بود که به عنوان «مشتری» سراغ این پروژه می‌آمدند و میخواستند از این پروژه استفاده تجاری کنند و خب ظاهرا نُرمی در بین هموطنانمون وجود داره که با علم به این که کجا زندگی می‌کنیم و با چه امکاناتی چی توسعه می‌دیم؛ همچنان انتظار دارند در حد و اندازه غول‌ها ظاهر بشیم 🙂

خلاصه این قضیه خیلی باعث شد به من بربخوره 😁 و به همین خاطر یک دیتاست از تصاویری که در میدجرنی تولید شده بود رو برداشتم، به همراه متون ورودیشون (دیتاست حدود ۱۰۰۰ تصویر) و آخرین نسخه مانی (لینک) رو ساختم. خروجی‌ها واقعا خوب شده بودند اون هم فقط با هزار تصویر. اما یک مشکلی بود، تنوع خروجی به شکل میدجرنی نبود تا این که کمی در دیسکورد میدجرنی، چرخیدم و نتایج جالبی دستم آمد 🙂

چگونه رمز موفقیت میدجرنی شکسته شد؟

خارجی‌ها یه اصطلاح جالبی دارند. وقتی میخوان ببینن چیزی چطور کار می‌کنه میگن Let’s look under the hood یا «بذار یه نگاه به زیر کاپوت بندازیم». اما مشکل اینجاست که میدجرنی کاپوتش جوش داده شده. پس چطور میشه فهمید اون زیر چه خبره؟

خب حقیقت اینه که در سال‌های اخیر خیلی چیزها من‌جمله ویندوز، مک او اس، آیفون! تکنولوژی‌های فیسبوک و … مهندسی معکوس شدند و نمونه‌های آزاد و متن‌باز ازشون ساخته شده. پس مهندسی معکوس میدجرنی هم نباید کار سختی باشه نه؟ فقط به کمی اطلاعات نیاز داریم. این اطلاعات رو می‌شد از دیسکورد به دست آورد.

اول، داشتم دنبال مدل‌هایی می‌گشتم که بر اساس روش کار میدجرنی ساخته شده باشند. نخستین چیزی که دیدم OpenJourney از Prompthero بود که خب کارم رو تا حد زیادی راه انداخت و تصاویر خوبی بهم داد (که حتی بعضیاش رو برای تست و بهبود مانی هم استفاده کردم). اما هنوز به خود میدجرنی، نرسیده بودم. پس باید چه کار می‌کردم؟

میدجرنی یک مدل نیست، چند مدله!

خب یکی از چیزهایی که در مورد میدجرنی خیلی جالبه اینه که همیشه در آپدیت‌هاش مدعی میشه که اضافه کردن یک کلمه یا عبارت جدید (مثلا Double Exposure) در متون ورودی می‌تونه نتیجه‌های جدیدتر و بهتری برای شما تولید کنه.

همین باعث شد که من کمی به اتفاقاتی که زیر کاپوت داره می‌افته، شک کنم. شکم هم تا حد خوبی به یقین تبدیل شد وقتی دیدم چند پروژه مشابه (که هنوز عمومی نشدند) مدعی «استفاده از چند مدل» شدند، اما چطور؟

خب یکی از راه‌هایی که میشه این حرکت رو زد اینه که چندین مدل روی چندین قضیه متفاوت ترین/فاین‌تیون بشه و بعد با یک if ساده، ورودی‌ها رو به اون‌ها فرستاد. اما سوال اینه که من چه کردم؟ آیا چندین مدل ترین کردم؟ خیر.

ترکیب چند مدل با هم و نتایج آن‌ها

اگر کمی با هوش مصنوعی آشنا باشید، احتمالا می‌دونید مدل‌های هوش مصنوعی وزن و بایاس‌هایی هستند که به داده‌های مختلف داده شدند.

حالا اگر این مدل‌ها ساختار مشابهی داشته باشند، این امکان وجود داره که اون‌ها رو با هم ترکیب کنیم و نتیجه‌های بهتری بگیریم. خب کاری که کردم این بود که اول از همه مانی رو با Open Journey و یکی دو مدل دیگه ترکیب کنم (و اسم این مدل رو new_mann_e_2 گذاشتم) و بعد یک سری مقایسه با openjourney انجام دادم.

اما حالا نیاز بود که کمی از خوبی‌های میدجرنی رو هم اینجا داشته باشیم 😁 پس حالا چه کردم؟ هیچی. آمدم و وزن‌های مانی جدید و اوپن‌جرنی رو با هم ترکیب کردم.

نتایج آزمایش‌ها

متن‌های ورودی همونطوری که مشخصه یک منظره (در سبک wasteland و cyberpunk) یک چهره (در سبک و سیاق نقاشانی چون Alphonse Mucha) و یک وسیله نقلیه (نقاشی فانتزی) بودند و مقدار seed (که تعیین‌کنندگی خوبی در جزییان نقاشی داره) در هر سه تصویر، یکی نگه داشته شد.

می‌تونم بگم به جرات مانی ۴ – که در حال حاضر در حال کار روش هستم – با متد «چند مدل» به خوبی تونسته از پس خودش بربیاد و این یعنی که همه چیز چقدر خوب داره پیش میره و با یکم تغییر و یکم ترکیبات جدید، می‌تونه نتایج به شدت بهتری هم بهم بده.

فاین تیون کردن مانی با داده‌های شما

یکی از سوالاتی که در مورد مانی ازم پرسیده شد، دقیقا همین بود که چطور میشه مانی یا حتی خود میدجرنی رو فاین‌تیون کرد. در مورد میدجرنی باید بگم متاسفم، این مدل هیچیش آزاد یا متن‌باز نیست و نمیشه کاری کرد.

اما مانی رو میشه به کمک Dream Booth فاین‌تیون کرد و احتمالا بعدتر در مورد اون هم خواهم نوشت. ولی اگر شما ایده یا دیتایی دارید، می‌تونید به من بگید تا در نسخه ۴ اضافه کنم و مدل بهتری در نهایت ارائه کنم.

جمع‌بندی و سخن آخر

بالاخره این پست هم به پایان رسید و وقتشه که یک جمع‌بندی روی مطالب گفته‌شده داشته باشیم. همونطوری که در شروع مطلب گفتم، یکی از دغدغه‌های من از زمانی که این مطالعه/تحقیق خاص رو شروع کردم این بود که تصاویر بهتری بتونم تولید کنم و این تصاویر در نظرم بود که به خروجی‌های Midjourney نزدیک یا ازشون بهتر باشند.

این یکی از وجوه این مطالعه/تحقیق بود و وجه دیگرش هم این که چطور ترکیب وزن‌ها و بایاس‌های چند مدل مختلف (که البته از معماری یکسانی تبعیت می‌کنند) می‌تونه در نتیجه اونها تغییر ایجاد کنه.

خب باید بگم که این فاز آکادمیک و تحقیقاتی به خوبی پیش رفته و کمی جای توسعه و تحقیق فنی برای این پروژه‌ها باقی می‌مونه که در آینده‌ای نه چندان دور، بروزرسانی‌های اون هم منتشر میشه.

در نهایت بگم که اگر دوست دارید محتوای مشابه و به زبان انگلیسی بخونید می‌تونید بلاگ انگلیسی من، اگر دوست دارید محتوای سابق من رو بخونید ویرگول من (بنا به پاره‌ای از اتفاقات دیگر در ویرگول نمی‌نویسم) و اگر هم علاقمند به بینایی ماشین هستید جامعه بینایی ماشین رو بخونید.

یادتان هم نره که یادگیری مستمر به بهبود زندگی شما در هر شرایطی کمک می‌کنه و همیشه شما رو می‌تونه به شخص بهتری تبدیل کنه ✌️

گوناگون

رفتار انجمن اوبونتو مقابل یک پروژه آزاد (یک انتقاد از عملکرد مدیریت انجمن اوبونتو)

نوامبر 11, 2022 محمدرضا حقیری 3 دیدگاه

مدتی بود که دوست نداشتم مطلبی بنویسم اما خب الان، مجبورم که این بلاگ رو پیرامون رفتاری که دوستان مدیر در انجمن اوبونتو ایران داشتند، مکتوب کنم. قضیه از اونجایی شروع میشه که کلی بحث در این فروم شروع شد. نخستین بحث برمی‌گرده به تاپیکی که من درش سوال کردم «چرا دبیان؟» و خب می‌تونید از اینجا بخونیدش 🙂

یک سری شوخی اینجا شد، اما بعد از مدتی بحث و بررسی در فروم با تعدادی از دوستان – که همگی از نظرم نوجوانان و جوانان باهوش و مستعدی هستند – تصمیم بر این شد که پروژه جبیر (+،+ و +) رو احیاء کنم. البته انتظار برخورد جالبی از سمت مدیریت نداشتم (با توجه به این تجربه) ولی خب اول قضیه، کار نسبتا خوب پیش رفت. کلی بحث و بررسی سر معماری ARM شد، در مورد x86 شد، حتی در مورد دیزاین وبسایت، لوگو و … شد. در نتیجه چه اتفاقی افتاد؟ این که من وبسایت پروژه جبیر رو احیا کردم 🙂 خیلی جدی هم در مورد محصولات مبتنی بر نرم‌افزار آزادی که می‌خواستم در این پروژه داشته باشم بحث شد، عمده بحث هم همین نوجوانانی که ازشون صحبت به میان میاد، پیش می‌بردند و من عملا نظاره‌گر بودم.

خلاصه این که دو تا تاپیک با موضوعات یکی «چرا دبیان» (که عمده بحثش پیرامون این که چرا دبیان گزینه خوبیه و بخش کمیش چرا ARM خوبه) ایجاد کردم که ترجمه فارسی یکی از پست‌های پروژه جبیر بود. در این تاپیک به طور خاص اصلا از پروژه جبیر، صحبتی به میان نیامد.

تاپیک دوم هم در مورد اهمیت معماری x86 در ساخت یک پروژه توزیع لینوکس بود و باز هم آنطور که باید و شاید، اسمی از پروژه نیامد. اما خب ناگهان دیدم که پست‌ها همه حذف شدند و این اخطار هم دریافت شده:

و حالا من پست مرتبط با «قوانین و خط مشی» انجمن اوبونتو رو بررسی کردم، تنها دو بند هستند که به «پروژه» اشاره دارند و هیچ کدام به طور خاص، به پروژه جبیر اشاره نکردند.

اولین بند اینه:

۳. شما توافق میکنید که هیچ‌گونه ارسال هرزنامه، انبوه‌ارسال، تبلیغات، نامه‌های زنجیروار، طرح و برنامه‌های شرکتهای هرمی و درخواست‌های نامربوط و نامعقول، بصورت خصوصی یا عمومی نخواهید داشت.

و البته دومیش این:

. انجمن‌های فارسی اوبونتو از پذیرش هر گونه عنوانی که به هر نحوی کاربران را به استفاده از نرم‌افزارهای غیرآزاد مایل نماید معذور است و حق حذف، قفل، انتقال یا ویرایش چنین ارسال‌هایی را برای خود محفوظ می‌داند. مسلما انواع مقایسه بین نرم‌افزارهای آزاد و غیرآزاد شامل این بند نمی‌شود.

که مورد دوم، حتی قانون هم نیست بلکه در بخش «اخطارات و الزامات» قرار گرفته، یعنی در شرایط خاصی امکان نقضش هست (که خودشون توضیح دادند، مثل زمانی که شما ۱. دارید مقایسه می‌کنید و ۲. آلترناتیوی برای اون نرم‌افزار نیست.

حقیقتش رو بخواهید، بروز چنین رفتاری از انجمنی که شاید الان «تنها هاب نرم‌افزار آزاد در وب» به حساب میاد، تا حد خیلی زیادی شرم‌آوره و جالب نیست، دیگه خود دانید 🙂

برنامه نویسی, توسعه سیستم عامل

نصب Phosh روی دبیان

سپتامبر 1, 2022 محمدرضا حقیری دیدگاه‌تان را بنویسید:

گنوم، چندسال اخیر رو در حال بهبود تجربه کاربریش روی دستگاه‌هایی مثل گوشی‌های همراه و همچنین تبلت‌هاست. در کل، داره برای یک انقلاب در صفحات لمسی آماده میشه. حالا، یک رابط کاربری جالب به اسم Phosh (مخففی برای Phone Shell) ارائه کرده که روی دبیان (بله، حتی دسکتاپ!) قابل نصب و اجراست.

نماگرفت زیر، نماگرفتی از صفحه قفل این رابط کاربریه:

و خب همونطوری که می‌بینید، کار تمیز و نسبتا زیباییه. حالا سوال اینه چطور نصبش کنیم؟ در ادامه مطلب مفصلا توضیح میدم 🙂

نصب قدم به قدم Phosh روی دبیان

گام اول: نصب دبیان

توجه داشته باشید که دبیان مد نظر من اینجا، دبیانیه که شما روی پردازنده‌های x86 نصب می‌کنید. اگر قراره این دبیان روی رزبری پای باشه، یا سیستم شخصی شما صفحه لمسی داره، می‌تونید این قسمت رو نادیده بگیرید. اما من نصب رو روی یک ماشین مجازی با کمک Virtual Box انجام دادم. آموزش نصب دبیان، در اینترنت زیاد پیدا میشه؛ فلذا اینجا حرفی از آموزش نصب به میان نمیارم. فقط حواستون باشه نسخه Net Install دبیان رو دانلود و نصب کنید که چیز اضافه‌ای نداشته باشیم. برای دانلود دبیان هم می‌تونید به وبسایت دبیان مراجعه کنید و آخرین ISO مورد نظر رو بگیرید.

گام دوم: قبل از نصب Phosh چه کنیم؟

خب اولین کاری که قبل از نصب Phosh کنید اینه که با خودتون یک فنجان قهوه یا نوشیدنی خنک داشته باشید چون پروسه نصب ممکنه شما رو خسته و تشنه کنه. بعد از اون، بد نیست که سیستم رو بروزرسانی کنید. بعد از بروزرسانی سیستم‌عامل، نوبتی هم باشه نوبت اینه که مستقیم بریم سر نصب Phosh. اینجا هم جا داره نکته مهم رو متذکر بشم که من phosh رو از مخازن نصب می‌کنم تا صرفا کنجکاوی رفع شده باشه وگرنه روش درست‌تر نصب phosh نصب از کد منبعه (حداقل اگر روی سیستم x86 و به قصد توسعه نصب می‌کنید).

گام سوم: نصب و راه‌اندازی Phosh

خب برای نصب کافیه که دستورات زیر رو اجرا کنیم:

sudo apt install phosh-core

و اگر می‌خواهید Phosh شما مناسب تبلت باشه:

sudo apt install phosh-tablet

و اگر می‌خواهید نسخه کامل Phosh رو نصب کنید، کافیه که دستور رو به این شکل تغییر بدید:

sudo apt install phosh-full

و بعد از نصب حدود یک گیگابایت بسته‌های نرم‌افزاری، کل میزکار گنوم مخصوص صفحات لمسی یا همون Phosh برای شما نصب خواهد شد. پس از نصب، کافیه که اول سرویسش رو فعال و سپس راه‌اندازی کنیم:

sudo systemctl enable phosh
sudo systemctl start phosh

سپس، صفحه قفل (که بالاتر عکسش رو قرار دادم) و بعد از اون، صفحه ورود رمز به شما نمایش داده میشه.

پس از ورود رمز، وارد صفحه منوی اصلی می‌شیم که از اونجا می‌تونیم به نرم‌افزارها و ابزارهای نصب شده روی سیستم دسترسی داشته باشیم:

خب، حالا با خیال راحت می‌تونیم از Phosh استفاده کنیم و لذت ببریم 😁

نکات مهم

از اونجایی که Phosh نرم‌افزار نوپا و نسبتا جدیدیه، لازمه چند نکته مهم رو در موردش متذکر بشم:

نسخه خاصی ازش در مخازن دبیان پایدار موجوده که خب برای یک تست دم دستی و ویرچوال‌باکسی، بهترین گزینه بود (حداقل برای من) و خب قاعدتا روی مخازن تستینگ و ناپایدار هم قرارش دادند. موقع نصب، مراقب باشید تا به ضررتون نشه 😁 ترجیحا نصب رو روی یک ماشین مجازی انجام بدید.
این میزکار خاص، برای صفحات لمسی خیلی بهینه شده و استفاده ازش با ماوس و کی‌برد تا حد زیادی سخته. اگر صفحه لمسی دارید که می‌تونید به سیستمتون وصلش کنید، احتمالا تجربه کاربری بهتری داشته باشید.
بعضی نرم‌افزارها اندازه‌شون برای من مشکل داشت (که احتمالا برمی‌گرده به ویرچوال باکس). اگر در جای دیگری امتحان بشه شاید اندازه صفحه و برنامه‌ها، مناسب باشه.

کدوم توزیع‌ها از Phosh پشتیبانی می‌کنند؟

این هم سوال مهمیه، تا جایی که دیدم PostmarketOS (که برمبنای آلپاین ساخته شده) و همچنین Mobian (که برپایه دبیانه) از این میزکار (یا بهتر بگم پوسته) پشتیبانی می‌کنند. در مورد سایر توزیع‌ها/سیستم‌عامل‌هایی که ممکنه گنوم رو اجرا کنند، ایده‌ای ندارم.

جمع‌بندی

این بلاگ اصلا قرار نبود نوشته شه، ولی امروز از سر خستگی (دقیقا خستگی 😂) جستجو کردم ببینم Phosh چطور می‌تونه روی دبیان دسکتاپ نصب بشه. امتحانش کردم و به نظرم پروژه تمیز، باحال و آینده‌داری اومد. حالا هم تستش کردم و هم یک سری ایده‌ اومد به ذهنم. در آینده، احتمالا بیشتر با Phosh کار کنم و در موردش بنویسم. در آخر هم بابت وقتی که صرف کردید و این مطلب رو خوندید، ازتون تشکر می‌کنم.

نرم‌افزار آزاد، محلی است برای یادگیری، نه دعوا و ترول‌بازی

نرم‌افزار آزاد، در مورد شفافیت است!

در یک جامعه درست، مخفی‌کاری جایی ندارد.

و اما وداع…

ایجنت‌ها، عملگرایی به LLMها اضافه می‌کنند.

ساخت ایجنت بدون استفاده از فریمورک

نمونه یک ایجنت ساده با پایتون

کد نمونه با اکشن

جمع‌بندی

پیش‌نیازها

شروع به کار

نصب کتابخانه‌های مربوطه

حالا g4f چیه؟

چرا به OpenAI نیاز داریم؟

راه‌اندازی API لوکال

نوشتن کد پروژه

کد کامل

ملاحظات قانونی

جمع‌بندی

سیستم‌عامل چیست؟

سفر به اعماق گنو/لینوکس

پس هوش مصنوعی چه؟ از آن نور وارد می‌شود

شناخت بهتر LLMها

LLM چیست؟

کاربردهای LLMها

کدام سیستم‌عامل‌ها، به هوش مصنوعی مجهز شدند؟

رویای کارپاتی: سیستم‌عامل مبتنی بر LLMها

سیستم‌عامل مبتنی بر LLM چطور قراره کار کنه؟

چالش‌های LLM OS

جمع‌بندی

اعلام وجود انجمن نام (نرم‌افزار آزاد و متن‌باز)

اعلام انجمن برای مجمع

روز مجمع

حواشی آن روز پرماجرا

استعفای دست جمعی هیئت‌مدیره

سخن آخر با جامعه پیرامون تیر ۹۹ و مسائل مشابه

مارال‌چت

دسترسی به ربات در تلگرام

امکانات ربات

پیگیری اخبار مارال‌چت

پروژه‌های بعدی

سخن آخر

آشنایی اجمالی با آرچ

بریم سراغ پارچ!

برخوردهای اولیه

نصاب

تست پارچ پس از نصب

محیط گرافیکی و عملکرد آن

جمع‌بندی

تاریخچه مانی

ظهور Stable Diffusion

اما به خوبی Midjourney نبود…

چگونه رمز موفقیت میدجرنی شکسته شد؟

میدجرنی یک مدل نیست، چند مدله!

ترکیب چند مدل با هم و نتایج آن‌ها

نتایج آزمایش‌ها

فاین تیون کردن مانی با داده‌های شما

جمع‌بندی و سخن آخر

نصب قدم به قدم Phosh روی دبیان

گام اول: نصب دبیان

گام دوم: قبل از نصب Phosh چه کنیم؟

گام سوم: نصب و راه‌اندازی Phosh

نکات مهم

کدوم توزیع‌ها از Phosh پشتیبانی می‌کنند؟

جمع‌بندی

وبلاگ شخصی محمدرضا حقیری، برنامه‌نویس، گیک و یک شخص خوشحال