Связь между Большими Лингвистическими Моделями, Графом Знаний Google и SEO

31.01.2024

128 Просмотры

Как связаны между собой обширные лингвистические модели, граф знаний Google и SEO? И казалось бы, при чем здесь блокчейн, но об этом впоследствии.

Что такое LLM или большие лингвистические модели
О графе знаний Google
Источники данных для графа знаний и лингвистических моделей
Почему нужны обе технологии и можно ли оставить только одну
Эмбединги в поиске

Что такое LLM или большие лингвистические модели

LLM – это машинные модели, анализирующие и генерирующие контент, основанные на больших наборах данных. Самыми известными на сегодняшний день являются GPT, PaLM, BERT, LaMDA, LLama. Кстати, все они трансформеры. При этом масштаб таких моделей впечатляет – они тренируются на данных объемом в петабайтах и содержат миллиарды параметров.

К примеру, модель PaLM от Google имеет 540 миллиардов параметров и использует новую архитектуру Pathways для эффективного обучения. PaLM2 – чуть меньше – 340 миллиардов. Благодаря этому PaLM может решать широкий круг задач: перевод, классификация текстов, ответы на вопросы и т.д.

LLM сначала тренируются решать общие задачи обработки природного языка. А затем их можно адаптировать к конкретным сферам, например, медицине, с помощью небольших наборов данных.

Поиск использует их, чтобы понимать контекст, классифицировать контент, понимать значение слов. К примеру, когда пользователь вводит запрос в поиск, в некоторых случаях Google может задействовать BERT, чтобы понять, что пользователь имеет в виду и чего хочет. А теперь уже и TW-BERT .

О графе знаний Google

Граф знаний Google – это расширенная база данных, агрегирующая информацию о различных сущностях и их взаимосвязях и характеристиках. Сущностями могут быть очень конкретные объекты, такие как люди, компании, товары, а также события, места и отвлеченные понятия, концепции, факты. Это такая попытка оцифровать вселенную. С особым вниманием Google относится к именным сущностям – это имена и названия конкретных людей, компаний, событий и т.д. Пример именной сущности компании – Whitepress.

В отличие от обычных баз данных сущности связаны между собой отношениями. Это ребра, соединяющие узлы и описывающие, как одна сущность относится к другой.

Две сущности, связанные между собой, называются триплетом: субъект – предикат – объект. К примеру, Олеся пишет статью. Олеся Коробка — именуемая сущность субъекта, статья — просто сущность объекта, а пишет — связь между ними или предикат.

Олеся -> пишет -> статья

субъект -> предикат -> объект

Также в граф добавляются метки – это дополнительные характеристики, помогающие классифицировать сущности.

Google использует граф знаний для формирования панелей знаний и фактологических ответов на вопросы пользователя. Когда в запросе присутствует конкретная сущность и Google может ее выделить, он добавляет специальные блоки, которые необязательно отвечают на запрос, но могут предоставить дополнительную информацию.

Источники данных для графа знаний и лингвистических моделей

Основными источниками данных для графа знаний Google являются Викидан, Википедия, открытые данные государственных учреждений, коммерческих компаний, трастовые публичные базы данных. Данные могут быть структурированы, полуструктурированы (таблицы, списки на сайтах) и неструктурированы (обычный текст).

Об источниках данных к лингвистическим моделям точных данных нет. Известно, что Google использовал датасеты новостных сайтов, корпус книг, возможно, очищены данные Common Craw l и многое другое, в том числе медицинские датасеты.

Почему нужны обе технологии и можно ли оставить только одну

Лингвистические модели фокусируются на векторном пространстве. Для Google при использовании векторов важно понять самое значение слова или фразы. Поэтому важен язык слова, контекст, еще другие слова его окружают, насколько статистически часто они все вместе встречаются в одном документе. Фактологическая достоверность при этом не важна.

В графе знаний напротив. Аккуратность очень важна. Траст, доверие, достоверность – это все относится к сущностям в графе знаний. Значение слова сущности не имеет значения. Сущность все равно переводится в язык ноль и ему предоставляется определенное место в базе данных. Сущность универсальна в этом смысле. Для Google важно различать сущности между собой и не путать их.

Оптимизация сайта под граф знаний

Чтобы данные о вашем бизнесе или сайте эффективно использовались в графе знаний, нужно:

Использовать понятный для экстракторов шаблон. Лучше, когда он одинаков для страниц одного типа, структурирован. Структурировать информацию можно с помощью таблиц, списков, разметки, иерархии заголовков.
Наполнять страницу полными и достоверными данными, указывать все необходимые атрибуты или характеристики сущности.
Использовать семантическую маркировку с указанием сущностей и связей между ними.
Оптимизировать контент под соответствующие сущности, не мешать все в кучу, а также убедиться, что вы с Google все равно понимаете, о какой сущности идет речь и что он именно так ее и экстрактирует.
Убедитесь, что есть внутренние и внешние ссылки, которые в анкоре или заголовке страницы имеют необходимую сущность, которую корректно экстрактирует бот.

Таким образом, можно получить инфоблок в поиске, панель знаний о компании или сайте, а также улучшить позиции за счет того, что Google будет лучше понимать контент.

По всей видимости, граф знаний открывает новые возможности для поисковой оптимизации. Главное – максимально структурировать данные на сайте и наполнить его полезным и достоверным контентом.

Влияние графа знаний на ранжирование

Влияет ли граф знаний на позиции сайта в поиске? Качественное структурирование данных облегчает их обработку Google.

Также наличие сайта или его страниц в ответах Google, инфоблоках, других функциях поиска повышает вероятность кликов на него по поиску и видимости вообще.

Влияние трансформеров на ранжирование

Это иногда звучит странно для SEOшников, но оптимизироваться под BERT и другие трансформеры невозможно. К примеру, BERT Google использует для того, чтобы лучше понимать намерение и контекст запроса пользователя. Он сам по себе требует очень много ресурсов. Доподлинно неизвестно, использует ли его Google даже для всех запросов, не говоря уже о веб-страницах. Попытайтесь вот сами. Написала вам код , чтобы вы могли просто создать BERT’ом эмбединги ключевых слов.

Эмбединги в поиске

Основой семантического поиска Google составляют эмбединги, а точнее сравнение их соответствующего сходства.

Эмбединги

— векторные представления, кодирующие семантическую информацию о контенте. Так Google может не только понимать запросы пользователей, но и возвращать подходящие результаты поиска.

Вот как это работает:

Об алгоритме ScaNN, который использует Google, подробнее можно прочитать здесь .

Как использовать эмбединги и LLM в SEO

На самом деле можно производить очень крутые штуки, но вот только несколько примеров:

Создавать качественный, информативный контент, передающий полное семантическое значение тем, а не только ключевые слова. Это позволяет поисковикам точнее представлять странички с помощью эмбедингов.
Создать свой датасет и зафайнтьюнить выбранную модель под себя, чтобы генерировать разный контент.
Анализ проекции эмбедингов, чтобы выявить пробелы в контенте и возможности.
Использовать векторы слов и эмбединговые инструменты для расширения ключевых слов семантически связанными терминами.
Кластеризовать, классифицировать, размечать контент на сайте.
Генерировать контент любой. Например, для ответов на часто задаваемые вопросы пользователей.
Автоматически аннотировать контент, например после генерации описания товара.
Разработать рекомендательные системы, основанные на сходстве векторов пользователей и товаров.

Причем здесь блокчейн и верификация данных

Технология блокчейна теоретически может помочь верифицировать данные, попадающие в графы знаний Google или в любую другую базу знаний на векторах. Блокчейн обеспечивает неизменность и прозрачность транзакций.

Google может интегрироваться с децентрализованными реестрами на блокчейне, чтобы проверять достоверность данных о сущности. Это повысит качество графа знаний.

С другой стороны, размещение структурированных данных о сайте или компании в блокчейне может служить их верификацией для Google.

Против этого метода высказывается Tim Berners Lee. Основными недостатками использования блокчейна для поиска будущего при переходе на web3.0 являются:

Медленность,
Чрезмерная стоимость,
Публичность.

Еще посмотрим, как это будет развиваться.

Вывод

Итак, современные технологии, такие как LLM, эмбединги и граф знаний открывают новые возможности для контент-маркетинга и SEO. Они позволяют создавать качественный, структурированный и семантически содержательный контент, лучше воспринимаемый поисковыми системами.

Чтобы успешно применять эти технологии, необходимы знания и креативный подход. Но те, кто овладеют LLM, эмбединги и граф знаний получат значительное преимущество на рынке контент-маркетинга и SEO в ближайшие годы.

Источник

https://www.whitepress.com/ua/baza-znan/1952/llm-kg-seo