چگونه Google عناوین اسناد را با ناهمترازی زبان یا خط تولید می کند | وبلاگ مرکزی جستجوی گوگل | توسعه دهندگان گوگل

جمعه 3 ژوئن 2022

این هفته، ما یک بهبود الگوریتمی را معرفی کردیم که اسنادی را که در آن عنصر عنوان به زبان یا خطی متفاوت از محتوای آن نوشته شده است، شناسایی می‌کند و عنوانی را که شبیه زبان و خط سند است انتخاب می‌کند. این بر اساس این اصل کلی است که عنوان یک سند باید با زبان یا خط محتوای اصلی آن نوشته شود. این یکی از دلایلی است که ممکن است از عناصر عنوان برای عناوین نتایج وب فراتر برویم.

عناوین چند زبانه

عناوین چند زبانه همان عبارت را با دو زبان یا خط متفاوت تکرار می کنند. محبوب ترین الگو این است که یک نسخه انگلیسی را به متن عنوان اصلی اضافه کنید.

गीतांजलि की जीवनी – بیوگرافی گیتنجالی به زبان هندی

در این مثال، عنوان از دو قسمت تشکیل شده است (که با خط فاصله تقسیم می شوند) و مطالب مشابهی را به زبان های مختلف (هندی و انگلیسی) بیان می کنند. در حالی که عنوان به هر دو زبان است، خود سند فقط به زبان هندی نوشته شده است. سیستم ما چنین ناسازگاری را تشخیص می‌دهد و ممکن است فقط از متن سرفصل هندی استفاده کند، مانند:

गीतांजलि की जीवनी

عناوین با خط لاتین

نویسه‌گردانی زمانی است که محتوا از یک زبان به زبان دیگری نوشته می‌شود که از خط یا الفبای متفاوتی استفاده می‌کند. برای مثال، عنوان صفحه‌ای را برای آهنگی در نظر بگیرید که به زبان هندی نوشته شده اما برای استفاده از نویسه‌های لاتین به‌جای خط بومی هندی دوانگاری ترجمه شده است:

جیس دش من هولی کلی جاتی های

در چنین حالتی، سیستم ما سعی می‌کند با استفاده از اسکریپتی که در صفحه غالب است، عنوان جایگزین پیدا کند، که در این مورد می‌تواند این باشد:

जिस देश में होली खेली जाती है

خلاصه

به طور کلی، سیستم های ما تمایل دارند از عنصر عنوان صفحه استفاده کنند. در مواردی که عناوین چند زبانه یا نویسه‌گردانی شده است، سیستم‌های ما ممکن است به دنبال جایگزین‌هایی باشند که با زبان غالب صفحه مطابقت داشته باشند. به همین دلیل است که ارائه عنوانی که با زبان و/یا اسکریپت محتوای اصلی صفحه مطابقت داشته باشد، تمرین خوبی است.

ما از بازخورد بیشتر در انجمن خود، از جمله موضوعات موجود در مورد این موضوع به زبان انگلیسی و ژاپنی استقبال می کنیم.