Синтетичні дані: чому ШІ, навчений на ШІ, є наступною великою річчю (і проблемою)

Оскільки у розробників штучного інтелекту закінчуються дані для навчання своїх моделей, вони звертаються до «синтетичних даних» — даних, створених самим штучним інтелектом.

Нестача

Оскільки у компаній, які займаються штучним інтелектом, закінчуються дані для навчання, багато хто вивчає так звані «синтетичні дані», але залишається незрозумілим, чи буде така річ колись працювати.

Як пояснює New York Times, синтетичні дані — принаймні, на перший погляд — просте рішення зростальної нестачі та інших проблем з даними для навчання ШІ. Якщо ШІ зможе широко використовувати дані, генеровані ШІ, це не тільки розв'яже проблему нестачі навчальних даних, але також може усунути проблему порушення авторських прав ШІ, що насувається.

Але хоча такі компанії, як Anthropic, Google та OpenAI, працюють над створенням якісних синтетичних даних, нікому поки що це не вдалося.

Досі моделі ШІ, побудовані на синтетичних даних, мали тенденцію стикатися з проблемами. Австралійський дослідник штучного інтелекту та підкастер Джатан Садовскі назвав ці проблеми «ШІ Габсбургів», маючи на увазі глибоко-інбредну династію Габсбургів та їх видатні підборіддя, які сигналізували про схильність їхньої родини до змішаних шлюбів.

Як написав Садовський у Твіттері у лютому минулого року, цей термін описує «систему, яка настільки ретельно навчена на результатах інших генеративних ШІ, що стає інбредним мутантом, ймовірно, з перебільшеними, гротескними особливостями» — дуже схожа на щелепу Габсбургів.

Минулого літа Futurism взяв інтерв'ю в іншого дослідника даних, Річарда Баранюка з Університету Райса, щодо його терміна для цього явища: «модельний розлад аутофагії», або скорочено «MAD». Потрібно було лише п'ять поколінь інбридингу ШІ, щоб модель дослідження Райс «вибухнула», як висловився професор.

Синтетичні рішення

Велике питання: чи зможуть компанії, які займаються штучним інтелектом, знайти спосіб створювати синтетичні дані, які не зведуть їх системи з розуму?

Як пояснює NYT, OpenAI та Anthropic, засновані, зокрема, колишніми співробітниками OpenAI, які хотіли створити більш етичний ШІ, експериментують зі свого роду системою стримувань та противаг. Перша модель генерує дані, а друга перевіряє їхню точність.

Досі компанія Anthropic була найбільш відвертою у використанні синтетичних даних, визнаючи, що вона використовує «конституцію» або список керівних принципів для навчання своєї двомодельної системи та навіть що Claude 3, остання версія її LLM пройшов навчання на тему «дані, які ми генеруємо усередині компанії».

Хоча це перспективна концепція, дослідження синтетичних даних на цей момент далекі від досконалості, і, враховуючи, що дослідники насправді не знають, як працює ШІ, важко уявити, що вони зможуть знайти синтетичні дані найближчим часом.

Джерела: New York Times