Занятие 10
Этика данных
Что такое данные с точки зрения социальных наук
Этика дата-исследований
Как читать документацию
Что такое данные
  1. Данные как риторический жест сборки реальности​.
  2. Данные как формы, предопределяющие нашу самость.
  3. ​Данные — не факт объективной реальности, а то, что дано.
  4. Данные как процесс.
Этика как практика описывает напряжение между существующей сегодня повседневностью и возможностью другой, лучшей повседневности (Keane, 2017).
Узнать больше
  1. из методички ↓
  • «Этика как картография», Дмитрий Муравьёв, стр. 10
  • «Управляя этикой», Джейкоб Меткалф,
  • Эмануэль Мосс, дана бойд, стр. 41
  • «Но ведь данные уже публичны»,
  • Майкл Циммер, стр. 22
2. «Рождение сенсорной власти: как пандемия сделала ее видимой?», Энгин Айсин, Эвелин Рупперт
Сборка реальности
Данные как риторический жест сборки реальности
Мишель Фуко в интервью Полу Рабиноу и Хьюберту Дрейфусу ​обсуждает феномен hupomnēmata — в древнегреческом контексте это одновременно и практика письма для самого себя (фиксирование прочитанного и обдуманного), и собственно записные книжки и тетради. Как описывает Фуко, цель hupomnēmata была в следующем →

«Главное — не обнаружить неописуемое, не выявить скрытое, не высказать невысказанное, а, наоборот, собрать уже сказанное, переупорядочить услышанное или прочитанное, и всё это ради ни много ни мало конституирования себя».

Если мы как субъекты уже пребываем с данными и они опосредуют наши действия, то и наши техники себя — как коллективные, так и индивидуальные — может включать в себя фиксацию новообретённой нами датафицированной жизни.
Предопределение самости
Исследователь Колин Купман, работающий с аналитическим методом Мишеля Фуко, предлагает считать середину 1910-х – середину 1930-х годов точкой, в которой начала формироваться так называемая информационная личность (informational personhood). Именно в это время понятие «информации» начало приобретать значимость.

Информация фиксируется благодаря форматированию. В отличие от дисциплинарной власти у Фуко, фокусирующейся на предписываемых телам нормах, инфовласть располагается в плоскости форматов — это могут быть формы, где надо отметить подходящие поля галочкой, печатные бланки, тесты, опросники и так далее.





Форматы зависят от категорий, которые определяют, как и какие данные нужно собирать, и в конечном итоге задают рамку, через которую индивиды определяют себя.

Данные, по словам Купмана, начинают предшествовать нашей самости. По этой причине ошибочно принимать их за двойников и тени, следующие за нами, ведь они часто предвещают наше присутствие.
Не факт, а дано
Обратимся к этимологии слова. Английское data, как указывает Д. Розенберг, — вариант множественного числа латинского datum. Последнее, в свою очередь, является причастием прошедшего времени от глагола dare, «давать».

С этимологической точки зрения «данные» (datum) — это то, что мы принимаем как данность, воспринимаем как должное. Розенберг отмечает, что «данные» отличаются от «факта» (латинский глагол facere — «делать») и «свидетельства» (videre — «видеть»):
  • факты относятся к онтологии,
  • доказательства — к эпистемологии,
  • данные — к риторике.

Онтология — существующее; эпистемология — исследования, обоснование знания через посылки и следствия; риторика — отражение мировоззрения через речь, ораторское описание реальности.

Данные — причастие прошедшего времени, однако данными называют и результаты работы прогнозных моделей, которые относятся к будущему.



Данные могут быть ложными (относительно познаваемой реальности), но при этом не перестают быть данными как таковыми. Слово «данные» отсылает к уровню риторических утверждений об определённой природе реальности.

Есть альтернатива — capta, «взятые», исследовательский улов для конкретной задачи. Это данные, которые историк собрал в архиве, историк — в поле, а философ — на ментальной карте. Это «естественная выборка»: оставшиеся источники, документы, артефакты прошлого, которые можно использовать в исследованиях.

Нельзя полагаться на мысль, что в будущем появится больше данных: вполне возможно, что к собранному больше никогда ничего не прибавится. Даже если что-то и прибавится, анализировать и интерпретировать мы можем только то, что уже у нас есть на руках.

То, что найдено при раскопках, является последней по близости к настоящему находкой, но лишь очередным дополнением к выборке на поступательном пути науки.

Пример: портал берестяных грамот Gramoty.
Формы власти по Фуко, Айсину и Рупперт
Технофеодализм
Теория Яниса Варуфакиса о том, что современная система управления цифровым капиталом напоминает феодализм, только вместо земли — место на цифровых платформах, а вместо феодалов — владельцы платформ.

Ключевая черта технофеодализма — всепроникающее влияние алгоритмов и искусственного интеллекта, который формируют мышление и предпочтения человека.



Схожие черты:
  • феодалы — цифровые платформы
  • вассалы — потребители и производители контента и товаров
  • бесплатный труд — генерация новых данных путём пользования платформой
  • арендная рента — плата за право выложить свой контент / товар на платформе или за рекламу
  • капитал — данные, в том числе эксклюзивные и персональные
  • управление массами — с помощью алгоритмов
  • монополизация власти и диктат комиссии — цифровыми платформами (Яндекс такси, Google Play Market и Apple App Store)
  • правосудие по своему усмотрению, а не по внешним законам — блокировка аккаунтов на Авито за отказ продавать товар подставным покупателям
Данные
как процесс
Чтобы объединить единичности и сделать их множеством, требуется разнообразный по квалификации, протяжённый во времени и распеределённый в пространстве труд.

Люди
  • собирают,
  • очищают,
  • систематизируют,
  • дают и забирают доступ,
  • каталогизируют,
  • анализируют,
  • визуализируют
  • и презентуют данные.

Эти и другие этапы демонстрируют процессуальную природу данных. Благодаря всем этим разнообразным процедурам данные могут путешествовать и жить в разных контекстах.





Тимнит Гебру, исследовательница предвзятости алгоритмов, предлагает ставить к данным следующие вопросы, чтобы прояснить их процессуальную природу:

  • С какой целью был создан набор данных?
  • Была ли поставлена конкретная задача при создании датасета?
  • Была ли какая-то лакуна, которую необходимо было заполнить? Есть ли в данных лакуны до сих пор?
  • Кто создал набор данных (например, какая команда, исследовательская группа)?
  • По поручению какой организации создан набор данных?
  • Кто финансировал создание набора данных? Был ли какой-то грант?
Этика как меритократия
Меритократическая вера в свои способности — это основополагающий миф, который воодушевляет держателей этики, говорящих о необходимости «нанимать лучших людей» из «лучших школ» и щедро вознаграждать тех, кто «отлично работает».

Подобный «я-смогу настрой» подразумевает, что работники технологической отрасли способны справиться с любой поставленной перед ними задачей, включая задачу «осуществления этики». Меритократия рассматривает успех как показатель качества, открывающего возможности, которые можно легко переложить и на другие сферы.





«Во всех этих компаниях работают действительно хорошие люди, которые стараются поступать правильно».

В таком случае, если возникает проблема, вину можно возложить на отдельного человека, а не на институциональные проблемы. Технические работники могут обнаружить себя в роли «губок ответственности». Взгляд технических работников на социальные проблемы более общего порядка, в лучшем случае, ограничен, как и власть отдельных сотрудников внутри корпоративной иерархии.
Этика как технология
«У вас не возникнет проблем с искусственным интеллектом, если все ваши данные в порядке и вы их надлежащим образом собрали ... проверили на истинность... убедились в отсутствии предубеждений... и перенесли вместе с метаданными, чтобы у вас была возможность пересмотреть своё решение. ... Проблема существует, когда вы перечисленного не делаете».

Описание этических проблем как проблем, требующих «лучших решений», вынуждает искать этику преимущественно в практике технологов, а не в социальных мирах, для которых и внутри которых разрабатываются технические системы.





Различение приватности и конфиденциальности
​​
Английское словоprivacy переводят на русский язык и как «приватность», и как «конфиденциальность», однако между этими терминами есть разница.
  • Приватность подразумевает возможность человека контролировать неприкосновенность своей частной жизни и самостоятельно определять границы доступной информации.
  • Конфиденциальность касается защиты персональных данных другими физическими и юридическими лицами, то есть относится к мерам, которые другие люди и компании предпринимают, чтобы ваша приватность не была нарушена.
Этика как рынок
«Система, которую вы создаёте, должна быть чем-то таким, что, по мнению людей, приносит пользу, а не массивным камнем на их дороге, которое не добавляет никакой ценности, потому что, если это массивный камень на дороге, который не имеет никакой ценности, люди буквально не будут этого делать, потому что им это не нужно».

Рыночная логика оказывает огромное давление на этические инициативы в отрасли, поскольку компании повторяют подходы друг друга, иногда просто из страха потерять сегмент рынка. Как объясняет один из руководителей, «если мы будем играть по правилам, которых будто бы даже не существует, мы окажемся в невыгодном положении».

Из-за рыночной логики, которая пронизывает всю технологическую отрасль, держатели этики пользуются собственным положением, позволяющим осуществлять изменения, не в полную меру, ограничивая себя рамками того, что дозволяет «рынок».



Цель держателей этики состоит не в том, чтобы остановить технологическую индустрию. Хотя все они заняты той или иной формой критики своей отрасли, они также вовлечены
в организационную культуру, которая вознаграждает ориентированную на показатели и быстро развивающуюся работу большими ресурсами, тем самым повышая их способность сливаться со средой и охлаждая их критический запал.

Прагматичное следствие такой «слепоты» заключается в том, что компании начинают перестраивать себя в соответствии с неполной картиной этического ландшафта, размеченного другими представителями отрасли.
Вопросы к данным
Смотрим не только на то, где данные ЕСТЬ, но и на то, где их НЕТ
Последствия
  1. Кто использует данные о вас? Какие государственные органы, какие компании, какие отдельные люди?
  2. Какие именно ваши действия или показатели становятся данными?
  3. К каким позитивным последствиям может привести ваше групповое исследование?
  4. А к каким негативным последствиям может привести ваше групповое исследование?

Социальная ответственность. Возможность убедить руководство: избежание репутационных рисков ведёт к избежанию финансовых потерь. Обратная сторона медали: кабы чего не вышло.
Кейсы:

«Практически вам необходимо мышление "красной команды", которая взглянет на этот продукт и задастся вопросом: "Каким образом кто-либо может злоупотребить этим продуктом?" Потому что людям, занимающимся созданием новых продуктов, очень легко замечать только позитивное и говорить: "Это будет так здорово. Это будет потрясающе". А затем либо забыть, либо вовсе проигнорировать тот факт, что, эй, кто-то потенциально возьмет этот продукт и использует его для чего-то совсем не хорошего». Эти практики похожи на то, что Вон (Vaughan, 1996) определила как «нормализацию девиантности».
Дебаты
Тема: «Нужно ли сделать данные о выкидышах
в России публичными»

Рандомайзер имён
  • Нужно решить
    • Стоит ли публиковать такие данные в принципе?
    • Если публиковать, то в каком виде?
    • Какие есть положительные и негативные стороны в публикации таких данных?
    • Кто больше всего выиграет от публикации таких данных? Кто выгодоприобретатель?
    • Кто больше всего рискует от публикации таких данных? Кто наиболее уязвим?
    • Что самое лучшее может произойти от публикации таких данных?
    • Что самое страшное может случиться от публикации таких данных?
    • Могут ли выгодоприобретатели потерпеть убытки? В каких случаях?
    • Могут ли уязвимые группы получить какие-то преимущества от публикации таких данных?
    • Какие меры помогут минимизировать риски?
  • Группы игроков
    1. Минздрав.
    2. Научно-исследовательский институт.
    3. Производители лекарств для беременных и молодых матерей.
    4. Беременные женщины и молодые матери.
    5. Департамент демографической и семейной политики Минтруда и соцзащиты РФ.
  • Тайминг
    1. 5 минут — обсуждение групповой позиции внутри команд, определение ваших выгод, рисков и публичной риторики.

    2. по 2 минуты — презентация групповых позиций

    3. 3 минуты — обсуждение ответа на групповую позицию внутри команд

    4. по 2 минуты — публичный ответ команд на позиции других участников:
    • нужно​ озвучить, на какой конкретно пункт чужих заявлений вы ссылаетесь («Вы считаете ... , и мы понимаем вашу позицию и (не) согласны с ней, но считаем важным добавить/возразить, что ...»)

    5. опционально: 7 минут — свободная дискуссия​

    6. по 2 минуты — подведение итогов дискуссии:
    • у других команд мы считаем самыми важными такие-то аргументы, ​
    • но наша позиция такова: мы считаем, что данные стоит / не стоит публиковать;
    • наш ключевой аргумент: ...

    ​Итого: 40 минут
Как читать документацию
1. Определите, с каким конкретно инструментом возникла проблема.
Например, карта виджет некорректно вставляется на сайт, и нужно понять, что именно не получается.
  • ❓ Не прогружается виджет? Проблема с виджетом
  • ❓ Виджет располагается не там, где хотелось? Виноват HTML

2. Разбейте проблему на маленькие подзадачи и решайте их постепенно.
  • ❌ Как сделать красивую интерактивную карту, вставить её на сайт и монетизировать просмотры
  • ✅ Как вставить карту на сайт

3. Тезисно сформулируйте проблему в виде нескольких ключевых слов и переведите их на английский.
  • ❌ Я не вижу карту на сайте
  • ✅ Map embedding error

4. Думайте не узкими задачами, а широкими категориями потенциальных возможностей программы. Мыслите на концептуальном уровне
  • ❌ Пользователь должен ввести своё имя в программу
  • ✅ Ввод пользовательских данных

5. Определите, с каким конкретно типом данных вы работаете, и используйте название этого типа данных при поиске. Изучайте функции, доступные для этого типа данных
  • ❌ Раскрасить территории на карте
  • ✅ Цвет полигонов в зависимости от значений QGIS

6. Первым делом проскролльте всю документацию и просмотрите её очень быстро по диагонали, чтобы понять структуру документа.





7. Не читайте документацию как сквозной текст, а пользуйтесь поиском по странице (Ctrl F / Command F)

8. Выбрав нужный абзац, вычлените из него незнакомые слова. Найдите определения неизвестных терминов. Можно для удобства переписать нужный абзац своими словами так, чтобы вы поняли и зафиксировали смысл написанного.

9. Абзацы делите на предложения, предложения на слова. Великую китайскую стену документации разбирайте по кирпичику.

10. Обращайте внимание на практические примеры, представленные в документации. Сравнивайте примеры с тем, что вы делаете. Находите сходства и отличия.

11. Не расстраивайтесь, если не понимаете, что написано в конкретном тексте, сколько бы раз вы ни перечитали его. Документации пишутся людьми, и далеко не все люди умеют связно излагать мысли. Лучше попробуйте найти в интернете другой ресурс, где описано решение той же самой проблемы.

12. Сопоставляйте несколько ресурсов с описанием решения конкретной проблемы. Это поможет избежать подводных камней и найти наиболее эффективный в вашем случае вариант.

13. Не используйте документацию как учебник. Используйте её для реализации конкретных задач.

14. Заведите референсную библиотеку собственных проектов. Например, «Библиотеку requests я использовала в проектах 1) по парсингу судов, 2) по парсингу тиктока, 3) по парсингу яндекс.дзена; ссылки на код 1) → 2) → 3) →»
Ищем информацию
На сайте программы ищите следующие разделы:

  1. Если вы хотите просто понять, как запустить программу, ищем
  • Getting started,
  • Quick start,
  • Guides;

2. Если нужно узнать, как решить конкретную задачу, ищем
  • Docs,
  • Documentation,
  • Readme,
  • Reference,
  • Academy;

3. Если нужно понять, как привязать ваш питон к скачиванию данных с этого сайта или как выгрузить результаты с помощью запроса, ищем API.






Вопрос ко всем платформам: как называется раздел с документацией + отдельные вопросы к каждой платформе.

  • Vk — Какие существуют запрещённые условия работы ботов, согласно правилам ВК?
  • TikTok — Какие существуют правила по использованию логотипа и бренд-цветов ТикТока?
  • Steam — В каких трёх форматах можно получить результаты запроса к API?
  • Telegram — Какие два правила телеграм считает основополагающими для соблюдения приватности пользователей в интернете?
  • QGIS — Что такое журнал в QGIS?
  • Figma — В каких планах подписки можно защитить свою фигму от копирования?
  • Quantified Self — Какие три вопроса нужно задать себе, когда решаешь, с помощью каких показателей ты будешь наблюдать за собой?
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website