عندما ينظر الإنسان إلى صورة، الدماغ لا يرى بكسلات منفصلة بل يتعرّف فورًا على الأشكال، الحواف، الوجوه، ثم يربطها بالذاكرة والمعنى والعاطفة، أما الذكاء الاصطناعي فلا “يرى” الصورة كما نراها نحن، بل يحوّلها أولًا إلى شبكة ضخمة من الأرقام، ومع Vision Transformers تُقسَّم الصورة إلى مربعات صغيرة جدًا تُسمّى patches، وكل مربع يُحوَّل إلى متجه رياضي، ثم تبدأ الشبكة في مقارنة كل جزء بكل الأجزاء الأخرى عبر آلية الانتباه الذاتي، فتسأل رياضيًا: أي جزء مهم؟ وأي علاقة تربط السماء بالطريق أو الوجه بالخلفية؟ على عكس الرؤية البشرية، رؤية الذكاء الاصطناعي تعتمد على الاحتمالات والتعلّم من ملايين الصور السابقة، فهو لا يعرف أن هذه “قطة” لأنه يحب القطط، بل لأن نمط الأرقام يشبه ما تعلّمه سابقًا، الإنسان يرى الصورة كقصة متكاملة من أول نظرة، بينما Vision Transformer يبني الفهم خطوة خطوة عبر علاقات رياضية بين أجزاء الصورة، ولهذا قد يخطئ في أبسط الأشياء التي يراها طفل، لكنه في المقابل قادر على اكتشاف أنماط دقيقة تعجز عنها العين البشرية، وهنا يكمن الفرق الجوهري: نحن نرى بالمعنى، والذكاء الاصطناعي يرى بالبنية.
#مفارقة
#مجلة ايليت فوتو ارت


