Jak chronić dane swoje, firmy i urzędu w aplikacjach AI: praktyczne porady I How to Protect Your Data in AI Apps?

Karolina Kulicka

27 września 2024

Rozwój technologii AI i przewaga konkurencyjna firm je tworzących w bardzo dużym stopniu zależy od ilości danych, które firma pozyskuje do wytrenowania modelu sztucznej inteligencji.  Dane, teksty, zdjęcia, posty to najcenniejszy i najbardziej potrzebny budulec systemów opartych o sztuczną inteligencję. Do wytrenowania dużego modelu generatywnej sztucznej inteligencji potrzebne są ich ogromne ilości. Można powiedzieć, że dane, w szczególności dane osobowe, to nowy rodzaj pieniądza, to waluta sztucznej inteligencji.

Jak firmy pozyskują dane?

Dane do trenowania modeli pochodzą przede wszystkim ze internetowych, takich jak Wikipedia, media społecznościowe, artykuły prasowe czy transkrypcja materiałów video. Nie zawsze zdobywane są w transparentny sposób, czego ilustracją jest choćby pozew wydawnictwa The New York Times wobec Open A.I, twórcy Chatu GPT, o nielegalne wykorzystanie danych z artykułów prasowych dziennika.

Innym źródłem danych są dane od osób korzystających z aplikacji AI. Firmy udostępniają nam aplikacje “za darmo,” ale de facto często płacimy za niego swoimi danymi, w mniej lub bardziej transparentny sposób. Jeśli nie płacisz za produkt, prawdopodobnie sam/a jesteś produktem.

Co dzieje się z danymi wpisywanymi jako prompty do okienek aplikacji AI?

Modele prywatności i wykorzystywania danych osób różnią się w zależności od aplikacji, ale generalnie można dla bezpieczeństwa przyjąć, że nic, co wpisujemy do internetu, nie jest prywatne. Dane, które wpisujemy do aplikacji AI:

  • są zapisywane na serwerze zewnętrznym wykorzystywanym przez właściciela/kę aplikacji,

  • mogą być i są odczytywane i przetwarzane przez osoby, które pracują nad ulepszaniem modelu czy zachowaniem jego bezpieczeństwa,

  • mogą służyć do trenowania kolejnych wersji produktu i modelu językowego,

  • co więcej, mogą być przekazane innym firmom, np. do celów marketingowych.

To oznacza, że wgranie bazy z informacjami do aplikacji, umieszczenie pliku w pdf czy informacji w prompcie powoduje, że wiedza o nich może stać się publiczna i dostępna w internecie. Wgranie bazy danych np. do czatu GPT zawierającej np. dane osób korzystających z usług urzędu może oznaczać, że kiedyś na pytanie o te osoby wpisane do czata może on w odpowiedzi wyświetlić dane, które to my wgraliśmy wcześniej.

Jak chronić dane swoje, dane osobowe i dane urzędu korzystając z AI?

To wszystko nie oznacza, że nie powinniśmy korzystać z czatbotów i aplikacji AI, tylko że powinniśmy to robić rozsądnie i z dbałością o ochronę danych. Narzędzia AI są cenną pomocą w pracy biurowej, analitycznej, w komunikacji z klient(k)ami czy przy tworzeniu polityk publicznych. Warto jest się ich uczyć i do nich przyzwyczajać, bo oferują coraz bardziej praktyczne możliwości wykorzystania. Przy ich stosowaniu należy stosować kilka “ostrożnościowych” zasad postępowania.

Po pierwsze, nigdy nie wpisujemy do okienka czatu danych osobowych czyli imion, nazwisk, adresów, numerów kont, niepublicznych danych finansowych, i danych ustawowo chronionych. Jeśli pracujemy na dokumentach zawierających takie dane, powinniśmy je najpierw zanonimizować. Są do tego stworzone specjalne aplikacje.

Po drugie, nie wprowadzajmy do swoich konwersacji żadnych danych wrażliwych lub poufnych, czyli takich danych, do których nie chcemy dawać dostępu osobom zewnętrznym, choćby deweloperom/kom, anotatorom/kom, testerom/kom i recenzentom/kom pracującym nad ulepszaniem modeli i aplikacji AI. Dane z promptów podlegają zarówno automatycznej, jak i ręcznej (ludzkiej) weryfikacji w celu ulepszania produktu, bezpieczeństwa cyfrowego i etyki.

Po trzecie, w przypadku wielu modeli, w ustawieniach możemy zastrzec, że nie chcemy, by dane przez nas wpisywane były używane do trenowania lub ulepszania modelu.

Po czwarte, poziom bezpieczeństwa danych przy korzystaniu z bezpłatnych wersji AI można zwiększyć poprzez:

  • korzystania z aplikacji w wersji online bez logowania - jest to możliwe w przypadku niektórych modeli, takich jak np. Chat GPT,

  • założenie w aplikacji konta zamiast logowania się przez konta Google, Facebook czy innych firm. Zapobiega to przekazywaniu naszych danych do firm zewnętrznych i wymiany danych między tymi firmami,

  • wyłączenie lub ograniczenie w naszych telefonach i wyszukiwarkach zakresu dostępu do danych, zdjęć, kontaktów, emaili.

Bezpieczeństwo danych nie oznacza zakazu korzystania z narzędzi AI. Te technologie są cennym wsparciem w urzędach, bo pomagają oszczędzać czas urzędników i urzędniczek, analizować dane, automatyzować powtarzalne zadania i mogą w wartościowy sposób wspierać i przyspieszać realizację zadań publicznych. Dlatego zachęcam do ich poznawania, testowania i używania, przy jednoczesnej uważnej refleksji nad rodzajem danych, które do nich wpisujemy.


ENG

27 September 2024

The development of AI technologies and the competitive advantage of the companies creating them depends very much on the amount of data acquired to train an artificial intelligence model. Data, texts, images, posts are the most valuable and necessary building blocks of AI-based systems. Huge amounts of data are needed to train a large generative artificial intelligence model. It can be said that data, especially personal data, is the AI currency.

How do AI companies obtain data?

Data to train models comes primarily from online sources such as Wikipedia, social media, newspaper articles or transcribed videos. They are not always obtained transparently, as illustrated by The New York Times' lawsuit against Open A.I, the creator of Chat GPT for illegal use of data from the newspaper's articles.

Another source of data is from people using AI applications. Companies provide us with apps ‘for free,’ but we often pay for it with our data, in a more or less transparent way. If you are not paying for the product, you yourself are the product

What happens with the data entered as prompts into AI app windows?

Privacy models vary from app to app. In general, however, it can be assumed that nothing we type into the AI app is private. The data that we type into an AI application:

  • are stored on an external server used by the application owner(s),

  • can be, and indeed are, read and processed by people who work on improving the model or keeping it safe,

  • can be used to train the next versions of the product.

  • moreover, they may be passed on to other companies, e.g. for marketing purposes.

This means that uploading a database to an application, putting in a pdf file or a data-heavy question into a prompt can make this information public and available on the internet. One day, when asked about the people whose names we entered into the chat it can display in response the data associated with these names uploaded earlier by you.

How do we protect our own data, personal data and the company's data when using AI?

All of this does not mean that we should not use chatbots and AI applications in general but that we should do so sensibly and with caution. AI tools are a valuable aid to office work, analytics, the communication with clients and citizens and in many more areas. They are worth learning and getting used to, as they offer more and more practical uses. However, when using them, a few ‘precautionary’ rules should be applied.

Firstly, we should never enter personal data, i.e. names, surnames, addresses, account numbers, non-public financial data, and statutorily protected data, into the chat box. If we work on documents containing such data, we should first anonymise them. There are special applications for this.

Secondly, do not include any sensitive or confidential data into our conversations, i.e. data that we don't want to give access to to external parties, such as developers, annotators, testers and reviewers working on improving AI applications. Data from prompts is subject to both automated and manual (human) review for product improvement, digital security and ethics.

Third, for many models, we can change the settings to stop our data from being used to train and improve the model.

Last but not least, the level of data security when using the free versions of AI can be increased by:

  • using the online version of the app without logging in - this is possible for some models, such as Chat GPT,

  • creating an account in the app instead of logging in via Google, Facebook or third-party accounts. This prevents the transfer of our data to external companies and the exchange of data between these companies,

  • disabling or limiting on our phones and search engines the scope of access to our data, photos, contacts, emails.

To sum up, data security does not mean stopping the use of AI tools. Quite conversely, these technologies are a valuable support in offices and companies because they help to use people’s time for higher-value tasks, automatizing the more simple ones. I encourage you to learn them, test them and use them wisely, thinking carefully about the type of data we type in.